JR東日本の大規模障害について考えてみた
JR東日本のやらかしを推察
先日、JR東日本がSuicaの大規模障害を発生させてしまったことは記憶に新しいが、その原因として電源工事にあたり予定していなかったブレーカを誤って落としてしまったことが発表され、一部界隈で大いに話題を呼んだ。このトラブルについて推察してみたい。
まず前提の話となるが、通常サーバの電源は別々の2系統(以後、0系統、1系統とする)から供給されるケースが多い。そのため、何らかの原因で0系統からの給電が途絶えてしまったとしても、1系統からの電源供給は継続されるため、サーバは問題なく稼働し続ける。
そこで本題となる今回のケースであるが、いったん0系統の電源工事を行うと仮置きして考えてみる。その場合、上記の日経クロステックの記事にもあるとおり、まずはサーバ側で0系統電源に接続しているコンセントを抜去し、1系統からの電源供給のみで稼働する片系運転の状態を作り出す。本来であれば、この状態で0系統のブレーカを落とし電源工事を開始するはずが、1系統のブレーカを落としてしまったために、1系統からの電源供給も停止し、完全にサーバの稼働が停止してしまった…おそらくは、そのような事象だと推測される。なるほど、日経から「現場猫案件」と揶揄されるのも仕方ない。
UPSが機能していれば防げた?
次に今回のトラブルに対する防止策として「UPSが機能していれば防げたのではないか?」というコメントが散見されたので、それについても解説してみる。結論から言うと、今回誤って停止したであろうマシンルームのブレーカは、UPSよりも電源供給対象の装置に近いことが一般的であり、UPSで防ぐことは不可能である。
データセンタに送電された電気は、まず特高と呼ばれる特別高圧受電設備にて受電し、その後変圧を行いながらUPSを経て、分電盤(PDF)に供給される。分電盤のブレーカ(MCCB)からは各ラックのPDUに給電され、ラック内のサーバやストレージ等の装置類がPDUに電源を接続することで、装置まで電源が供給される…という流れになる。
(わかりやすい模式図があったので、参考として貼っておきます)
そのため、UPSより上位の送電トラブル等で瞬断が発生した場合には、UPS側で電力供給を担うことができるが、UPSより下位の電源供給断には対応できないということになる。
(仮にUPSがPDFの下位に配置されたとしても、電源工事の際にいったん対象の電源系統を停止させる必要があり、結局UPSも停止せざるを得ないことから、今回のトラブルを防ぐことは難しかったはず)
再発防止策をどうするか
ちなみに、今回のトラブル原因としては結局手順書誤りという、ある意味ありがちな原因だったが、これは何気に再発防止が難しそうだ。というのも、もし「手順書の読み違え」が原因であれば、作業前のクロスチェックや工事対象となる分電盤へのマーキング等で再発防止を果たすことができるが、神様となる手順書が誤っていたとなると、作成者に有識者を据えるか、手順書レビューの体制を分厚くするかくらいしかないが、それで完璧に再発が防げるか、となるとなかなかに悩ましい。時間はかかるが、プラレコにラック単位で対応するPDFの情報を明記して、電源回りの解像度を上げるのが一番確実なのではないだろうか。
この記事が気に入ったらサポートをしてみませんか?