![見出し画像](https://assets.st-note.com/production/uploads/images/91785429/rectangle_large_type_2_80d11b5f4cb2af8c7d14ece5d5fe472b.png?width=1200)
人生で経験した最大規模の障害の話
以前勤めていたことのある会社が毎年数回大規模なセールをやっています。一度この大事な時期にオンラインストアの障害を起こしたことがあって、心に深い傷が今も残っていますがそろそろ時効だと思うので傷をさらけ出します。
障害の原因
まず、障害の原因はどんな角度から見ても私であり、そこは深く反省しています。
回避は難しかったと思いますが、後から振り返った時に回避のためのごくわずかなチャンスが2度ありました。
実はそれでも回避できなかったかもしれなくて、もしかしたらただ発生時刻を遅らせるだけであって障害は発生していたかもしれません。誰がやっても回避のチャンスを掴むのは難しかったと思いますし、それを掴んだからといって必ずしも回避はできなかったと思いますが、いずれにしても、それを逃したのは私です。
この障害は夕方のニュースにもなりました。1秒たりとも残業をしたくない主義の私が、障害解消後も含めセール期間中は終電に乗れずに連日タクシーで帰宅する規模の障害でした。
原因は想定外のトラフィックでした。このトラフィック予測を立てていたのも私。全て私のせいです。
予測の背景と結果
実はこの時の売上予算はかなりアグレッシブなもので、誰もが達成は難しいだろうと思っていました。しかし、ITの人間のサガとして私のトラフィック予測はこの売上予算を更に大幅に上回る売上にも耐えられるようガッツリとバッファを積んでいました。過去実績と売上予算を照らし合わせ、ロジックに基づいた予測をしたつもりです。
しかし蓋をあけてみたら、私の予測を大幅に上回る(予測の2倍より大きい)流量がありました。当然、売上も大幅に上振れしました。
かくして、オンプレサーバーで迎える最後のセールは大惨事となりました。クラウド移行のプロジェクトは裏で進行しており、このセールの後でリプラットフォームが予定されていたのです。ここを耐えればいい、という最後の局面で、耐えられませんでした。
障害の犯人
誰もこの規模で予測が外れるとは思っていませんでしたが、結果として予測は外れました。いくらロジックに基づいて予測しても、そのロジックの前提が外れたら予測は普通に外れるものです。
売上予算を立てたのは私ではありませんが、トラフィック予測は私の責任だし、わずかな回避のチャンスを掴めなかったのも私だし、もしかしたらクラウド移行プロジェクトを立ち上げた立場でもある私に対して「なぜもっと早くできなかったんだ」という批判もあるかもしれません。責任を感じていたし、責められる心の準備はできていました。
達成すら不可能と思われた売上予算の大幅な上ブレ、自分で立てた予測、自分が逃したチャンス……誰かを責める要素など見つからないし、そもそも復旧対応に追われて忙しかったのでくよくよする余裕すらなく、またあまりにも障害の規模が大きかったせいで全ての人たちが非常に協力的であったため、私は自分の責任について冷静に真摯に受け止めることができました。
幸いにも復旧後の売上は好調で、障害がなかったら一体どうなっていたのだろうと思えるほどの記録を出しました。また、関係者間では上位レイヤーも含め「もっとうまくできる方法はあったかもしれないが各局面でベストを尽くした結果なのだから仕方ない」というようなことが言われ、私個人に対する糾弾などは特にありませんでした。もちろんポストモーテムはしっかりしましたが。
障害から学んだこと
正常バイアスは怖い
障害が発生してからしばらくの間、私達のいたフロアはピリピリしながらもどこか和気あいあいとした雰囲気が流れていました。誰もが一時的な障害だろうと思っていたことでしょう。私もまさかあんなに長引くとは思っていませんでした。
私は各種グラフが上のほうや下のほうに張り付いているダッシュボードを見ながら、「やらかしたー!」と非常に明るく言いました。ビジネス側の人は、ちょうど某美少女戦士の商品告知が発信されたタイミングだったことから、「月にかわってお仕置きされたwww」と言っていました。
さらにその人は、心配してやってきた部長にも「月にかわってお仕置きされちゃいましたぁ」と言っていました。その部長は外国人であったため全く理解しませんでしたので、私から「今日発売の新商品のキャラクターのセリフです」と補足説明をしたところ、部長も笑っていました。
私が長期戦の予感を感じて青ざめるまでに30分かかりました。それまでどこかで根拠のない「どうにかなるでしょ」感はあったと思いますし、それがまさに正常バイアスなのだと思っています。この時はこれによる初動の遅れは特にありませんでしたし、障害の規模的にこの30分が惜しかったとも何とも思わないのですが、場面によっては本当にこの30分がクリティカルになるでしょう。でも当事者としてはそれが正常バイアスだなんて後から振り返ってみないとわからないのだと実感しました。
事前準備はにこやかに
1年間で最も売上の高い期間ですので、この期間に向けては毎年大規模な事前打ち合わせが何度もセットされます。
ここで毎年「サーバー大丈夫ですか?」という質問がITには向けられます。ここで100%大丈夫と言い切れる人はITに向いていないんじゃないかと私は思っています。
「落ちないようにできる最大限の準備はこちらでやるのですが、それでも落ちることはあるので、この場では障害発生時の対応を確認するほうが健全ではないですか?」
実際はこんな穏やかではありません。過去に何度も障害を起こしている期間ではあるので、「本当に大丈夫なんですか」「落ちたらああいうことやこういうことが起こって大変なんです」「○年前はこんなに大変だった」というような、ロジカルではない精神論の世界の質問やお気持ち表明が飛び交います。それに対して私も内心キレ散らかした状態で上記コメントを述べるのです。
もともとオンプレサーバーであって性能的に懸念があるのはわかりきっていたので私が言っていたことは正しいという自信がありましたし実際に残念ながら障害は起こったのですが、それにしても、実際に障害が起こってみるとこちらには申し訳無さが押し寄せるもので、その時にやはり「あの時キレ散らかしてたなぁ私」というのが走馬灯のようによぎるのです。にこやかに準備できていたら、罪悪感はあとほんの少し薄らいだでしょう。
障害対応の差し入れで嬉しいもの
障害の規模が規模でしたので、役員や他チームの人などから過去最も多くの差し入れをもらった障害対応でもありました。同じビルの下のフロアにコンビニがありましたので、主にそこで買われたものが多かったです。
障害対応用に占拠された会議室のデスクの中央に、山のように積まれた差し入れ。ペットボトル飲料と、おにぎり、サンドイッチ、お菓子が中心でした。
チームの行動としては、単純にランチがとれずにお腹がすいていたというのもあってまずおにぎりやサンドイッチから消費していきました。飲み物はこれに合わせて飲むことになるので、必然的にお茶の人気が高まりました。私は厚かましくも買い出しに行く人にリクエストまで出して、無糖の紅茶を飲みました。
時間が経過すると徐々に、品質保持観点からおにぎりやサンドイッチを「消費すること」がひとつのタスクになりました。オフィスに冷蔵庫がなかったためです。
また、お菓子類に関しては明確に人気と不人気が偏りました。少しイメージと違うかもしれませんが、甘いものばかり残りました。私は差し入れリクエストにハッピーターンを選びましたが、そのほかにも塩気のあるものに人気が集中しました。
全体として実際に消費したお菓子類はもしかしたら甘いもののほうが多かったかもしれません。「糖分が必要だろう」という気遣いがきっとったのだと思いますが、しかし、実際には夜がふけると特に塩分が恋しくなりました。障害対応って大変なのは頭を使うことよりも精神がすり減ることで、ストレスが溜まるとラーメンがおいしく感じるのと同じロジックなんじゃないかと勝手に思っています。
結局、甘いものがテーブルに残った状態ではあったのですが、わざわざ夜中に塩気のあるものをコンビニまで買いに行きました。そして「せっかくコンビニに来たのだから」ということで肉まんやカップ麺も買ったことを覚えています。
ということで、障害対応の差し入れには塩分。これ覚えておいてください。
後日談
障害を起こしながらもどうにか対処し、無事に困難を乗り越えたように思えた数週間後、非常にショックなことが起こりました。
それは当時のCIOが部員全員に向けて送ったメッセージに「トラフィックの予測は実際のトラフィックのX分の1というめちゃくちゃなものでした」と書かれていたことです。
確かに結果から見たらめちゃくちゃと言われても仕方ないのですが、少なくとも私はその時与えられた前提からはめちゃくちゃな数字を積んだつもりはありませんでしたし、同じ部門で働く仲間として、特に同じECチーム出身者として、この人もそこにある程度の緻密さが存在することは把握しているはずなのですが、このようにストレートに切り捨てられる結果となりました。
また、これ以外に(特に回避のチャンスについて)この障害についてメッセージ内で何も触れられなかったために、このメッセージは最も現実と乖離していた部分を結果論で指摘するだけで、部員に対して何の学びももたらさないと思いました。
メッセージはIT内の他部門の問題にも触れながら「気の緩みを糺そう」という主題のものだったのですが、残念ながら私をはじめ関係者全員誰一人、気の緩みなんていうものは元からありませんでした。1ヶ月以上前からこの日のために準備をして、障害が発生した時の対応まで明らかにした上で臨んだセールでした。
障害を起こしたという結果も、それを防ぐチャンスを潰したという過程も、責められるべきことだと思います。しかし、そうではないあさっての方向から刺されたことは心外だったし、障害のリカバリとその後の監視体制増強のために睡眠時間を削って土日も潰して対応した関係者へのねぎらいも一切なかったことに心底絶望しました。そして、そのような感情を抱きながらも、障害に対する自責の念から私は反論することができませんでした。
障害のときに人の本性が出ると私は思っています。私は所属部署を問わずたくさんの素晴らしい仲間に恵まれたことをこの障害で再確認しました。だからこそ余計に、たった1人の、たった1行のメッセージが今も心に突き刺さっているのです。
いいなと思ったら応援しよう!
![Aki](https://assets.st-note.com/production/uploads/images/7105453/profile_89c0280a77d7d95a74a5e4dbad4f5149.jpg?width=600&crop=1:1,smart)