大規模システム障害事例から学ぶ|ポストモーテム みずほ銀行システム障害事後検証報告(日経コンピュータ)|感想
この本を読んだ理由/知りたかったこと
私は以下の理由により、こちらの本を手に取りました。
私も大手金融機関で社内SEとして働いているため、システムの安定運用に向けたナレッジを得たい。
社内でシステム開発・運用に関する何らかの検討や提案をする際にも、他社事例として活用できそう。
社会的にも非常に注目されたみずの銀行のトラブルであり、SEとしては単純に興味がある。
アプリ系・インフラ系を問わず、IT業界で開発・運用を担当している方で、他社事例を学ぶことでシステム開発・運用の知見を深めたい人におすすめです。
どのような内容が書かれているか
「ポストモーテム」は直訳すると「検視」または「司法解剖」ですが、IT業界ではシステム障害の振り返りを実施し、その教訓を今後の取り組みに活かすことを指します。プロジェクトマネジメントの教科書的な存在であるPMBOKでも、ソフトウェア開発プロジェクトが終わった際に行う反省会をポストモーテムと呼んでいます。
この本では、2021年2月~2022年2月の約1年間に発生した11回のシステム障害について、障害内容や問題点、障害発生時の状況を臨場感をもって描かれています。抽象的な記載だけでなく、アプリケーションおよびインフラに関わる技術的な内容や、その背景にある運用体制や組織的な課題についても細かく書かれているのがポイント。
感想/学び
さすがの取材力で障害発生時の切迫した状態が描かれており、読み物としても単純に面白いですし、IT業界にいる人はちょっとした息抜きとして読むのも良いと思います。
最も印象が強いのは、同じ大手金融機関の中でも突出しているメガバンクのミッションクリティカル性。自社でも普通に起こっているレベルの障害がエンドユーザに多大な影響を与え、すぐに金融庁報告まで至ってしまうので、銀行の勘定系システムを担当しているエンジニアの方には頭が下がります。
各種の問題点に対する提言内容は理屈としては正しいのは理解できるのですが、ITベンダの人員確保にも困るほどリソース不足である現在の運用現場では、なかなか難しいものもありました。
例えば以下の3点であり、「知恵や最新の技術を使ってそれをどうにかするのが仕事だ」と言われたらそれまでですが、難しい課題であると感じます。
「地震等の自然災害以外のシステム障害発生にも備えて、重要システムは災害対策用センターへの切り替えテストを定期的に実施すべき」
システムが事業そのものである金融機関において、システムの数や種類は膨大であり、その数は増加し続けています。
「〇〇システムのDBがXXの状態になった場合に備え、〇〇システムのDBサーバのみサブセンターに切り替える」という対応ケースは、考え始めると数えきれないほど存在します。
だいたい長期化するのはキレイに壊れる障害ではなく、いわゆる「半死に」のような障害であり、個別の運用ケースや手順書を準備しておいて事前テストを実施するのは骨が折れます。そのためには、利用するハードウェアやミドルウェアなどのインフラ構成をできるだけ社内で標準化し、少ないバリエーションテストで品質担保をすることが重要と感じました。
「故障したネットワーク機器は稼働から11年経過していた」
経験上、古くなったとしても保守期間内で交換をしっかり実施している企業は稀だと思います。
特にネットワーク機器は24時間稼働する複数システムも共通利用しているものもあり、リプレイス時の計画停止や失敗時のリスク許容が非常に難しくなります。
サーバであれば新しいものを作ってシステムを並行稼働させられますが、大規模なネットワークスイッチを並行稼働させて少しずつ収容システムを移行するには時間がかかります。データセンターコア層の機器リプレイスとなると4年以上にもおよぶ長期プロジェクトとなる場合も。
特に超大企業ではネットワーク機器は数千台あるため、5年サイクルで交換するとなるとリプレイス作業が永遠に続くことになり、運用コストが膨大となります。
なかなか有効な手立てがなく、ある程度の機器故障は受容した上で、発生時の体制を整備するとともに、長期的にはできるだけオンプレミスのシステムを減らしていくことが有効と考えます。
「MINORIの開発・運用担当者を67%も削減」
開発中の2018年3月には1051人いた担当者を、最初のシステム障害が発生した2021年3月には345人となっており、社内の他の開発プロジェクトに人員をシフトさせていたとのこと。結果論としては分かりますが、開発に膨大な人員がかかるのは当然開発フェーズであり、67%削減という数字自体は責められるものでは無いと思います。
伝えたい本質は「コスト削減の圧力が必要以上に大きかった」「運用を軽視する社風であった」ということなのは分かります。ただリリース3ヵ月後であればまだしも、2019年7月に全面稼働した1年半後の数字であり、デジタル化を含めた他の重要プロジェクトにリソースを配分するのは普通のこととも感じます。
著者:日経コンピュータ
この本は日経コンピュータ社の共著ですが、主に中田 敦(なかだ あつし)さんによって書き下ろしされております。2015〜19年に日経BPシリコンバレー支局長を務められており、日経 xTECHの記事でよくお名前を拝見しております。
まとめ
今回は「ポストモーテム みずほ銀行システム障害事後検証報告」の書評を紹介させてもらいました。
綿密な取材を元に記載された内容であり、金融機関レベルのシステム開発・運用について非常に参考になりました。品質を高めるための提言内容はある程度の納得感がありますが、あとは自社の予算やミッションクリティカル度合いに応じて判断がなされるものと考えます。
ご興味がある方は読んでみて頂ければと思います。