
システムを安定稼働させるには!トラブル発生の謎
2021年8月31日のニュースに、みずほ銀行に関するニュースが飛び込んできました。
システム担当者を3年間で6割削減したという記事です。
詳しくは、以下の記事を見ていただければとおもうのですが、
「みずほ、システム担当者3年間で6割削減 ブラックボックス化進む」
みずほ銀行でシステム障害が相次いでいる問題で、みずほフィナンシャルグループ(FG)が基幹システムの開発などを担当する人員を全面稼働後に約6割削減していたことが31日、分かった。障害の多発や、原因究明の遅れの背景として、システムの保守管理に関わるノウハウが十分に引き継がれなかった可能性も指摘されており、信頼回復に向けた取り組みは時間を要しそうだ。
銀行の業務は多岐にわたっており、そのすべての業務をコンピュータシステムで動作させるため、そのプログラム大量になります。
どのくらい巨大かというと、以下の記事にその内訳が書かれています。
「参加ベンダー「約1000社」の衝撃」
「8000人を統制したプロジェクト管理術」
プログラムを開発する際、プログラム開発をする会社が数社集まって開発する事はよくあるのですが、みずほ銀行の場合は、約1000社があつまり、最大ピーク時8000人で開発が行われたそうです。
これだけの人数が関わったのですから、そのプログラムを理解するのは容易ではないのは想像できるのではないでしょうか。
巨大なプログラムになると維持管理するのも大変で、システムを開発した技術者がいないとトラブル発生時に障害原因をすぐに特定する事は難しいのです。
その巨大システムの技術者をみずほ銀行は6割も削減してしまったそうなのです。
コンピュータシステムは、様々な機能が組み込まれており、いざという時に動作するプログラムも数多くあります。
数年に一度しか動かないプログラムもあるのですが、そのすべての機能をテストするのは容易ではありません。
数多くの分岐がある道を想像してみて下さい。
くまなくその道を通るのは、容易ではありません。
プログラムのミスを「バグ:虫」と言います。
プログラムが完成すると、バグ取りを行っていくのですが、すべてのバグが取り除けるわけではなく、何パーセントかは残ってしまうのです。
これだけのシステムのバグをすべて取ろうとすると、おそらく何十年もかかってしまうのではないかと思います。
また、コンピュータシステムも機械です。
当然、使われている部品も劣化します。
劣化によって発生するトラブルも対処する必要があるのですが、機械の異常が起きた際に動作するプログラムというのは、当然、異常が起きないと動作しません。
そこにバグがひそんでいると、機械の異常が発生するまで存在がわかりません。
なので、だいたいシステムが稼働しだしてから、数年してトラブルが起きてきます。
その際、プログラムの内部構造を知った人がいないと、本当にお手上げになってしまいます。
8000人が関わったプログラムなので、ドキュメントも膨大な量になるとおもうのですが、日本語で書かれたドキュメントは、曖昧な表現で書かれている事が多く、肝心なところが書かれていない事も多くあります。
最近のシステムは、24時間稼働の所もでてきています。
そんなところでは、だれかがシステムをみていないといけないのです。
なので、システムが安定して稼働している裏には、多くのコンピュータ技術者が働いている事を知っていただければとおもうのです。
結局は、人が全てなのです。!!
今日もいい日でありますように。(^^)