プロダクトにおいてのアラート対処
アラート発生した時とか、皆さんはどのように行動を取られていますか?
正しく普段から認識合わせておいたり対応手順を決められていたりするプロダクトであれば良いのですが、そこまで厳密に決められていない場合PM職が旗を振る必要があると思います。
そんな時のためにどんな順番で行動するかのためのメモ代わりです。
①通常時のアラートとの違いを認識、チームに対して共有する
- 同じ500エラーだとしても今まで出たケースと違いは何か
②根拠となるデータをチームに対して共有する
- アラートが出た理由のグラフなどキャプチャをとり添付する
③エラー起因の箇所と議論するための材料をチームに共有する
- 先日対応した部分とか、自分が把握しているものなどを出し持ち寄る
④プロダクト全体の影響度をチームに共有しアナウンス有無を判断
- そのまま
⑤アクションを明確にする
- 一次対応が終わっていればそれも記載する。
- いつまで待機しないといけないか、一次対応を継続するのか、恒久対応を始めるのか判断など
以上です。
社内でとても参考になる方の動きを教えていただいていたので、私の意見を合わせ残しました。
何かの参考になれば幸いです。