ウェブサイト保守案件での緊急対応
ウェブサイト保守案件の教科書 vol.2
そう頻繁にあっても困りますが、例えば「ウェブサイトが落ちてる」と連絡があったときの緊急対応マニュアル的な内容を書いておきます。
まず冷静に
事故に遭遇したときの対応と同じで、とにかく冷静沈着に行動することが大切です。しかし、目の前で事故が起きてもパニックにならないで行動すること難しいので、できなくても落ち込まないでください。初めは「人を呼ぶ」だけでも大丈夫です。
「ウェブサイトが落ちてる」と連絡があったとき
状況把握
電話などで連絡があったときは通話をつなげたまま、対象や状況などを確認します。相手はパニックになっていることもあるので、落ち着いた応対を心がけましょう。誰かに助けを求めてもいいので、まずは状況把握を急ぎましょう。
対象(サイト、ページ)
どんな問題が発生しているか
いつから発生しているか
直前になにか操作をしたか
通話しながら、本当にウェブサイトが落ちているのかを確認します。
ブラウザでウェブサイトを表示(自分の目で事象を確認)
ブラウザのシークレットモードなどで表示確認(キャッシュなどの問題でないことを確認)
スマートフォンなど社外のネットワーク経由で表示確認(ネットワークの問題でないことを確認)
ステータスコードが出ているか(画面のスクリーンショットを取得)
原因がすぐに分かり復旧できれば、報告に進みます。
原因が不明で、すぐの復旧が難しいとなったら、関係者に連絡しましょう。
連絡
下記のように聞かれるであろうことを予め伝えてしまい、無駄なやり取りが発生しないようにしましょう。
この時点で推測でものを言うと、誤解を招くことがあるので、分からないことは「調査中」「不明」「未定」といいましょう。
「1時間後には部分的に復旧できそうです」と言ったのが、情報が錯綜して「30分後に復旧」になってしまうこともあるので、気をつけてください。
調査
調査を進めつつ、問い合わせへの回答もしないといけないので、人手があるなら役割を分担しましょう。
このタイミングでは「何が起きた?」「原因は?」「とにかく復旧して」などの声も増えて、プレッシャーもどんどん強くなります。
次は何時に報告しますと宣言して、調査する時間の猶予を作りましょう。
可能な限り、他の人が変更などしない状況をつくり、情報収集から始めましょう。証拠(エビデンス)があるかないかで、調査の信憑性に大きな差が出るので、どんな細かいものでも保全することをおすすめします。
サーバーをコマンドで操作する必要もあると思いますが、今回はそこまで言及しません。
画面のスクリーンショットの取得
エラーメッセージの取得
サーバーリソースの確認
エラーログ、アクセスログの取得
原因調査は、他によく似た問題が発生していたら、それに習って調べていくのが近道です。
しかし、よく似た問題が見つからないことも多いので、そういうときは、正常な箇所と問題のある箇所を切り分けていきます。
問題箇所を絞り込むことができるだけでも、大きな成果となります。
問題箇所の絞り込みも難しいときは、個人的な経験則ですが、複数の問題が絡んでいることが多いので、いろいろな方向から調べてみましょう。
復旧
バックアップから復旧するときは、ウェブサイトが先祖返りしてしまうことを事前にクライアントに承知してもらう必要があります。
前夜にバックアップされたとして、当日に多くのページに更新があったとします。前夜のバックアップから復旧したとき、更新された内容が全て無くなること、同じ内容を更新し直してもらうところまで了承してもらいましょう。
いきなり先祖返りさせてしまうと、余計なトラブルになることがあるので注意しましょう。
報告
必要に応じて報告書(顛末書、障害報告書など)を作成することになります。
顛末書まで求められていなくても、顛末書のフォーマットで報告すると状況が伝わりやすく信頼回復にもつながるので、状況把握のときから、必要な情報を集めておくことをおすすめします。
大きなトラブルがあったときは精神的に相当消耗しているので、一旦、考えること止めて、温かいお風呂に入ってからゆっくり休んでください。