#141 緊急時の対応レベルでチームの成熟度がわかる ~旗振り役とベテラン~
こんにちは。ITベンチャーエンジニアのこへいです。
昨晩、私のチームが運用するシステムで障害が起きてしまいました。
昨日のうちに事態は一旦落ち着きましたが、今日も朝から後処理や恒久対応に追われた一日でした。
こういう緊急時のチームメンバーの動きを観察していると、各メンバーやチーム全体としての成熟度がわかります。
〇障害対応の振返り
19:30頃 バグってます!!
私のチームが提供しているシステムが一部サービス停止状態であることを社内で検知しました。
slackで「バグってます!!」呼びかけがあり、全員集合。調査を開始しました。
haddle(slackのオンラインミーティング機能)をつないでチームメンバーであれやこれや言いながら事象の把握と原因調査が進みます。
22:00頃 事象が解消
色々あって何とか事象が解消しました。
サービスの一部ではありますが、長時間影響の出るかなり重度の問題でした。
23:00頃 暫定対応終了・解散
事象解消後、切りのよいところまで暫定対応を終わらし、明日のTODOを整理し解散。
翌日に恒久対応を進めました。
〇障害対応ができる人、チームは成熟している
こういう障害時に重要な役割を担うのが『旗振り役』と『ベテラン』です。
旗振り役
障害時には関係者に状況を正確に伝えること、チームの力を総動員し解決への最短経路を進むことが重要です。
事象発生から、対応時のタイムライン
事象の再現方法
影響範囲
原因
一次対応
再発防止策
といった情報を正確に整理し誰でも見れる状態にすることが重要です。正確な情報が周知されていることで、あとから障害対応に加わった人がすぐに状況をキャッチアップして、調査や作業に加わることができます。
また、やるべきTODOが明確にしそれぞれのTODOの担当者を明確に割り振ることで全員で効率的に解決に向かって進むことが出来ます。
旗振り役がおらず、個々人が勝手に動いてしまうと、情報が錯綜して無駄な調査をしてしまったり同じ作業を複数人でやる無駄が発生してしまいます。
的確な判断が出来る旗振り役がいるかどうかは迅速な復旧には欠かせません。
ベテラン
旗振り役が状況を整理し、それぞれが役割を持って原因調査を進めますが、原因特定にはシステムやサービスへの深い理解や幅広い知識が必要です。
起きている事象を正確に把握するためにシステムを操作したり、大量にあるログから適切な情報を見つける嗅覚が必要です。
さらにプレッシャーのかかる状況でも、今見えている情報から隠れている情報を手繰りよせ、原因調査を推し進めていく胆力も必要です。
経験によるところが大きいため、こういう時こそベテランが頼られます。ベテランの中でも特に瞬発力のある人は障害対応ではめちゃくちゃ頼りになります。
私は10年以上システム開発を経験しており、ベテラン枠に入ります。
今回は初動組より少し遅れて対応に参加したため、主に恒久対応の旗振り役と実施役を務めました。
旗振り役が務まる人や、原因特定への貢献が大きい人こそが成熟した人であり、そういうメンバーが複数人いるチームは強いです。
今回の障害対応では、全員集合の呼びかけに気づいて他チームのメンバーも協力してくれ、本当に頼もしかったです。
〇障害対応のプロセスが構築しているチームはより成熟している
障害対応ができる人には偏りが出がちです。
障害時のタスクは多岐にわたるため、旗振り役には障害対応の豊富な経験や適切な判断力が必要です。一度旗振り役を務めた人が次も任されることが多く、経験が浅い中で重責を買って出る人も珍しいかと思います。
原因調査もベテランに任され、次回もベテランに任せてしまい、若手は傍観してしまっても無理はありません。
しかし、このように特定の人に対応が偏るのは、チームとしてはまだまだ未熟かと思います。
ベテランの旗振り役がいなくても対応が進められる
まだ未熟なメンバーが障害対応に参加し適切に経験を積める
という、障害対応のプロセスが構築されているチームこそが成熟したチームといえます。
そういう意味では、私のチームの障害対応プロセスの構築はまだ道半ばで、まだまだ未熟と言えます。
私のチームでも参考にしている障害対応プロセスを紹介します。
私達もこのレベルを目指していきます!!!
ということで、緊急時の対応レベルでチームの成熟度がわかるという話でした。
最後までお読みいただきありがとうございました。