Amazon EC2が落雷で障害 InstagramやPinterestがダウン

ITMediaで Amazon EC2が落雷で障害 InstagramやPinterestがダウン という記事があるが、あまり騒ぎになっていないのだろうか?

他の情報を見ると、米国東海岸のストームはかなり強烈だったようで、人的被害も含めて随分広範な被害が生じているようだ。 なるべく軽く済むよう祈りたい。

で、この件だが、まず意外なのはAmazon EC2というブランドサービスでありながら、広範な停電によって停止するということに驚いた。それなりの期間はバックアップできる予備電源を持っていると思ったから。どのぐらいの時間停電したのか良く分からないが(記事中には「停電は数十分で回復したが」とあるが)、3日ぐらいは運転できる自家発電装置をデータセンターに併設するといった対策はなかったのだろうか?バッテリーのみで瞬間停電のみ対応、だったのだろうか?

記事によると、「停電は数十分で回復したが、ストレージに不整合が起きた」というので、停電以降の回復の手際の問題は、話が別としておこう。

さて、雷による停電。広く知られていることだが、停電と言ってもいろいろなパターンがあるらしい。以前問題になったのは、半導体工場だったか、停電せず電圧が下がった状態がちょっとの間(秒以下)続いたことによるトラブル。 これは特に精密な機械(メカ)の場合、なかなか対処が難しいようである。定電圧電源を全装置にかませればいいのかもしれないが、ずいぶん高くつきそうだ。 また、その昔私自身が経験したのは、よくある話だが、雷によって発生した高圧のパルスが機器を破壊するトラブル。 電源からの回り込みは、電源装置やその前位に置いた雷除け(アスレター)のおかげで、かなりの場合防げるのだが、その時はちょっと離れた2地点間のアースに電位差が生じ、機器の回線まわりの半導体を壊してしまった(ダイオードが焼け焦げていた)。 交換の機材を入手するまでの2日間、サービスが止まってしまった。 考えていなかった、つまり「想定外」のトラブルは、いつか起こるものである。

(2012-7-4追記) WIRED.jpからの転載記事 雷雨が浮き彫りにしたアマゾン・クラウドの脆弱性(WIRED.jp) によると、『「激しい雷雨により、東部地域におけるわが社のサーヴィス提供領域において、主電源とバックアップ発電機の電源が一晩失われた」と、アマゾンの広報は6月30日に発表している』 ということで、バックアップ発電機すら止まるような大雨??だったということと、『処理負荷を複数のデータセンターに振り分ける「Amazon Elastic Load Balancing(ELB)」サーヴィスが、この停電中に動かなかった模様だ』ということだ。 これも例の「想定外」なのだろうか?

(2012-7-4更に追記) CNET Japanの記事 アマゾンのAWS障害–障害を長引かせた要因はインフラに潜んだバグ によると、『サービスの停止が長引いた原因は、同社のソフトウェアに潜んでいた複数のバグにあったという』といい、『制御プレーン(顧客がリージョンの垣根を越えてリソースの生成や削除、変更を行えるようにするソフトウェア)の機能低下によってさらに事態が悪化した』うえ、『Amazonのサーバ起動プロセスにボトルネックが発生したため、EC2やElastic Block Store(EBS)といった主要なAWSコンポーネントのオンライン復旧に想定以上の時間がかかった』 と言っている。 何だかひどく複合的で、事前に想定するのは難しかったのかとも思う。