2011年、震災直後の障害はなぜ起きた【みずほのシステム統合と障害の歴史を振り返る #3】
2011年3月11日は日本人にとって忘れ難い日の一つであろう。みずほ銀行にとっても、東日本大震災の発生から3日後である2011年3月14日から24日にかけて起きた大規模なシステム障害は忘れ難いものとなった。振り込み処理の異常終了から始まり、最終的には一連の金融庁による立ち入り検査と、第3社委員会を招聘してての調査報告書を提出することとなった。
ATMが使えなくなっています
みずほ銀行の勘定系システムは3月14日から障害を起こしていた。テレビ局が番組などを通じて、東日本大震災の義援金への協力を呼びかけたところ、みずほ銀行中央支店に用意された義援金口座(以下、口座aと呼ぶ)に振り込みが殺到した。みずほ銀行の勘定系システムに多数の振り込みデータが集まり、取引明細の件数が1日に格納できる上限値を超えたからだ。
通常、取引明細の件数が上限を突破しても、口座aの処理以外に影響は出ない。この時点では他のシステムは正常稼働していた。
義援金の振り込みは、押し寄せ続けた。午後3時以降に受け付けた振り込み依頼は、翌日扱いとなる。これらの振り込みデータについては、夜間に一括して、翌日の振り込みに向けた準備処理をする。
口座Aに対するこの一括処理が異常終了した。振り込みデータの処理件数が上限値をオーバーしたのである。「こんなところにも上限値があったのか」これは上の取引明細とは別の処理であり、情報システムの運用拠点で作業に当たっていたシステム担当者は、一括処理にも上限値が存在することを知らなかった。上限を決めること自体はシステムにおいて正常な設定だ。問題はシステム部門が上限値の存在を把握していなかったことである。
結果、処理が異常終了してしまい、データが欠落して、人手で処理する必要が生じた。だが、翌営業日開始までに人での処理が完了できなかった。
店舗は開店したものの、融資や振り込みなど一部のサービスについて、開始することができなかった。オンライン処理の準備にてこずり、当初見込んでいた5倍の時間がかかったためだ。これらのサービスを開始できたのは、開店から1時間25分後の午前10時25分のことだった。
さらにやっかいな問題が発生した。15日に送信するはずだった振り込み31万件が、すべて送信できない事態になったのだ。口座aへの振り込みはもちろん、それ以外の振り込みもである。
前日夜間の一括処理による送信準備をすべて完了しないと、翌日のすべての振り込みが送信できない仕組みになっていた。みずほ銀行のシステム部門は、15日の午前5時に問題が顕在化するまで、口座aとは何の関係もない振り込みについても送信できなくなるということを認識していなかった。
振り込みデータの未送信に気付くのが遅れた結果、「二重振り込み」も引き起こした。これらを営業店で人手でやった結果、行員が営業店端末を使って処理した振り込みについては、二重に送金されてしまった。店舗とシステム部門の連携不足が、二重振り込みを引き起こした。
3月15日から16日にかても義援金の振り込みは続き、異常終了と処理の滞りがまた続く。
3月16日午前8時、みずほ銀行のATMが使えなくなった。ATMを起動する際に必要な準備処理をシステム担当者がうっかり忘れたのが原因である
結果、24日まで障害は続いた。25日の給与振り込みなどに対応できたのは現場の奮闘の賜物だと言えよう。
こちら(PDF)の調査報告書によればシステム上の不備は以下2点。
①大量取引が集中した場合のシステム処理単位
②夜間バッチが長期化した際のシステム運用機能
リスク管理体制上も2点の不備があるとしている。
① 稼働中システムの定例リスク評価
② 新商品導入時のリスク評価
さらに緊急時の対応、ひいては経営にも問題があった。