銀行に関する個人的な体験 :みずほ銀行 その4
5月8日に、みずほ銀行のトラブルについての記事を書いた後、当分、みずほ銀行の記事を書くことはないだろうと思っていました。
しかし、8月19日から20日にかけて、今度は、みずほ銀行と、みずほ信託銀行の全店舗の窓口業務が一時停止しました。
原因について、8月23日付の日経新聞「みずほ障害、バックアップ欠陥 「多重防御」機能せず」という記事では、このような図が載っています。
この記事には、こうあります。
みずほ銀行の基幹システムは東京23区外にある。正副の2系統あり、障害時にすぐ切り替えられるように備えている。今回はまず正系統のディスク装置の機器が破損。正系統内の予備の装置に切り替えようとしたが、これも起動せず、同じ拠点内の副系統に切り替えようとしたが、これにも失敗した。このため、みずほは千葉県内にある災害対策用の予備の拠点のバックアップを使おうとした。だが千葉拠点の正系統へのデータ移行にも失敗した。「最後のとりで」となる千葉の副系統に切り替え始めたのは20日の朝方だった。同ルートでの復旧を確認し、起動を終えた時はすでに20日午前9時の営業開始時間を過ぎていた。
みずほ銀行も、障害を想定したテストは当然していたと思うのですが、こんなことが起きるのは不思議です。最近たまたま、私の勤め先が利用しているクラウドサービスにおいて、機器のトラブルが起きました。ここも自動切り替えはうまくできなかったのですが、手動対応して復旧しました。サービス提供者の報告は、以下のように書かれています。
1.原因
①サーバー基盤において、ネットワークを構成する機器の故障が発生したため。
②機器故障の際に行われるはずの、副系機器への自動切り替わり処理が動作しなかったため。
2.対応経緯
2021年8月23日 午前9時37分
・障害の発生を検知し、調査を開始
2021年8月23日 午前10時31分
・ネットワーク機器の故障を確認。手動で副系機器に切り替え、サーバー基盤のネットワークを復旧
2021年8月24日 午前1時00分 ~ 午前4時00分
・故障していた主系機器の交換、および副系機器への自動切替動作試験を実施
3.問題点
該当の機器は二重化構成を取っておりましたが、機器故障が発生した際に当該機器が不完全な状態で停止したため、二重化構成が正常に機能せず、自動切替が行われませんでした。
4.再発防止策
再発防止として以下の対応を実施いたします。
定期メンテナンスによる予防保守の実施
本障害の発生原因、および問題点より、機器故障に備えるために6カ月に1度、以下の予防保守を実施する。
-該当機器の再起動(コールドリスタート)
-二重化構成の切替動作確認
予備機の配備
定期メンテナンスにおいて機器故障が確認された場合の即時復旧策として、予備機を配備する。
たとえ自動切り替えができなくても、これが通常の復旧パターンだと思います。先の日経新聞の記事によると、こう書かれています。
みずほFGは新システムの開発を富士通、日立製作所、日本IBM、NTTデータの4社に委託した。ただし全体を管理するのはあくまで委託元のみずほFGで、みずほ銀行、みずほ信託銀行、みずほFG子会社のみずほリサーチ&テクノロジーズ(MHRT)が運営している。MHRTはさらに再委託する複雑な枠組みで、開発から運営まで一括管理する体制が不十分になっている構図が浮かぶ。
いわゆる「マルチベンダー」なので、通常時は問題がなくても、トラブル時に、どこが悪いのかの調査にてこずる、というパターンなのかもしれません。さらに、8月29日付の日経新聞「みずほシステム障害頻発、浮かぶ3つの課題」は、こう指摘しています。
課題①障害に備えたテストや訓練が不十分
課題②司令塔が機能していない
課題③みずほ自身が新システムを理解していない
もしこの指摘が正しければ、致命的です。さらに、23日正午ごろから東京や大阪などでATM=現金自動預け払い機合わせて130台が使えなくなるトラブルが起きたということです。
タイトル写真は、みずほ銀行のサイトのトップページですが、23日のトラブルについては、書かれていません。書き手も、お詫びするのが嫌になったのでしょうか。
Personal experience about banks: Mizuho Bank Part 4
After I wrote an article about the problems at Mizuho Bank on May 8, I thought I would not be writing about Mizuho Bank for a while.
However, from August 19 to 20, the window operations of all branches of Mizuho Bank and Mizuho Trust & Banking were temporarily suspended.
As for the cause, an article in the Nikkei Shimbun dated August 23, titled "Mizuho's failure, backup flaw, 'multiple defenses' fail to function," shows the following diagram.
This article states.
Mizuho Bank's core system is located outside the 23 wards of Tokyo. There are two systems, a main system and a secondary system, and they are prepared to switch immediately in case of failure. This time, a disk device in the main system was damaged. The company tried to switch to a spare device in the main system, but it also failed to start up, and then tried to switch to the secondary system in the same location, but it also failed. For this reason, Mizuho tried to use the backup of a backup disaster management site in Chiba Prefecture. However, the data transfer to the main system at the Chiba site also failed. "It was not until the morning of the 20th that the company began to switch to the sub-system in Chiba, the "last resort. It was already past the 9:00 a.m. opening time of the 20th when they confirmed that the data had been recovered through the same route and completed the start-up.
I think Mizuho Bank had naturally done some testing in anticipation of a failure, but it is strange that something like this could happen. Recently, I happened to have a problem with a device in the cloud service used by my employer. The automatic switching did not work here either, but it was recovered by manual handling. The report from the service provider reads as follows.
1. Cause
(1) A failure of a network component occurred in the server infrastructure.
(2) The automatic switchover process to the sub-system equipment, which is supposed to be performed in case of equipment failure, did not work.
2. Background of the response
August 23, 2021, 9:37 a.m.
Detected the failure and started investigation.
August 23, 2021, 10:31 a.m.
Network equipment failure was confirmed. Manually switched to sub-system equipment and restored the server-based network.
August 24, 2021, 1:00 a.m. - 4:00 a.m.
Replaced the failed main system equipment and conducted an automatic switching operation test to the secondary system equipment.
3.Problems
The equipment in question had a redundant configuration, but when the equipment failed, the equipment stopped in an incomplete state, so the redundant configuration did not function properly and automatic switching did not occur.
4. Measures to prevent recurrence
The following measures will be taken to prevent recurrence.
Implementation of preventive maintenance through regular maintenance
The following preventive maintenance will be performed once every six months to prepare for equipment failure based on the causes and problems of this failure.
-Restart the relevant equipment (cold restart)
-Check the switching operation of the redundant configuration.
Deployment of spare equipment
Deploy spare equipment as an immediate recovery measure in the event of equipment failure during regular maintenance.
Even if automatic switching is not possible, I think this is the normal recovery pattern. According to an article in the Nikkei Shimbun earlier, it says
Mizuho FG has outsourced the development of the new system to four companies: Fujitsu, Hitachi, IBM Japan, and NTT DATA. However, the entire management is managed by Mizuho FG, the consignor, and Mizuho Bank, Mizuho Trust & Banking, and Mizuho Research & Technologies, Ltd. (MHRT), a subsidiary of Mizuho FG. MHRT is a complex framework that is further subcontracted, and it seems that the system for centralized management from development to operation is inadequate.
Since it is a so-called "multi-vendor" system, it may be a pattern that even if there is no problem under normal circumstances, when there is a problem, it may be difficult to investigate what is wrong. Furthermore, the August 29th Nikkei Shimbun article, "Mizuho system failures frequent, three issues emerge," points out the following
Issue 1: Insufficient testing and training to prepare for failures
Issue 2: The command tower is not functioning
Issue 3: Mizuho itself does not understand the new system.
If these points are correct, it would be fatal. Furthermore, around noon on the 23rd, a total of 130 ATMs (automatic teller machines) were out of service in Tokyo, Osaka and other areas.
The title photo is the top page of the Mizuho Bank website, but there is no mention of the trouble on the 23rd. I wonder if the writer got tired of apologizing.