みずほ銀行 ATM障害関連記事Pickup&Comment
どうも、イケてるIT品質管理です。
「カードが、通帳が、ATMから戻らない!」
2/28(日)に世間を騒がせた、みずほ銀行 ATM障害について、事実関係をまとめた記事以外にも各メディアの考察付き記事が出てきたのでPickup&Commentします。
(障害事象や直接原因については各方面で報じられているので割愛)
日経クロステック「前日のメモリ使用率」
2/27(土):定期更新15万件+ステータス更新45万件 ⇒ 成功
2/28(日):定期更新25万件+ステータス更新45万件 ⇒ 失敗
土曜日の稼働実績を日曜日に活かせなかったか?
2/27(土)に障害が発生するリスクは低減できない内容ですが、2/27(土)の処理時間・リソース使用状況 予実チェックがどこまで行われていたか、2/28(日)に活かすことができたか、気になります。
通常運用としてのリソース監視・通知は、「ステータス更新でリソース使用率が通常より高くなる。異常ではないので通知は無視する」としていた可能性もあると思います。
東洋経済「再発防止策を含めた改めて丁寧な説明を」
なぜここまで被害が拡大したか?
平日であれば障害はより広範にわたったのではないか?
「被害の拡大を防ぐ」という観点で何ができたか。
①ATMが正常動作しない場合、カードや通帳は一時的にATMへ取り込まれる
②取り込まれたカードや通帳は本人確認が済むまで返さない
が現在の設計のようです。
ATM障害は、今回のような臨時作業(ステータス更新)以外の要因でも起こりえます。②で人的オペレーションがネックとなるのであれば「②の対応が限界値に達したら、ATMでのカード・通帳の取り込みを停止する」という設計もアリですね。
今回、いつ障害を検知したのか、いつATMを止めたのか、時系列情報が未だ開示されていませんが、運用設計次第では5244件もの影響を出さずに済んだかもしれません。
時事ドットコム
「リスク評価態勢の妥当性が問われる」
なぜ、月末の日曜日に臨時作業を行ったのか?(リスク評価)
なぜ、顧客対応に時間を要したのか?(リスク管理)
「なぜ月末に?」は、多くの方が疑問に思ったでしょうね。
朝日新聞によると、
・紙の通帳は印紙税が年200円必要となる
・銀行は4月基準の通帳発行口座数を税務署へ申告する
・3月末までに紙の通帳を減らし印紙税代を節約したい
という事情があり、紙の通帳を減らすためのステータス更新を2月末から開始したようです。
会社全体でのリスク評価態勢が問われるのは当然ですが、システム部門としては「No」と言えない状態だったと推測します。
日経コンピュータ編集長
「お粗末な重大トラブルが多い」
何でこんな「惨事」にしてしまったのか?
組織をまたぐ制度・ルール・体制、すなわち「仕組み」の欠如ではないか
写真と文章の圧が凄いんですが(笑)、「被害の拡大を防ぐ」観点。
"日本企業(そして公的機関)は「勝手にやっている現場の集合体」"というご意見、グサッと刺さるものがあります。
外資系企業は統率が取れているのか、統率が取れているならばそれはなぜか、気になるところです。
みずほ銀行のサイトは
みずほ銀行には金融庁から報告徴求命令が出ており、期限が3月末と言われています。根本原因・再発防止などが明らかになったら、またnote記事にしたいと思います。
最後に、みずほ銀行のWebサイトを確認したところ、3月に入って発生した分も含めて3件のシステム障害のお詫び文が掲載されていました・・・
記念にスクショ。
ではまた!