書記の読書記録#70「システム障害対応の教科書」
木村誠明「システム障害対応の教科書」のレビューと読書記録
レビュー
本書は、金融系業務システムなどの開発・保守運用に携わり、多くのシステム障害対応を経験してきた著者が、障害対応の現場で必要な知識を体系的にまとめ、わかりやすく解説した1冊です。障害対応時の基本動作、現場マネジメント、必要なツールやドキュメント、効果的な教育・訓練など、ベテランが持つ経験や暗黙知に頼りがちだったさまざまなノウハウを文書化しました。
障害対応について,組織単位での共通認識が求められる中で,本書はそのフレームワークとして参考になることが多いと思う。IT分野の人は一通り読んでおいて損はない。
読書記録
# 1p12〜140
・システム障害対応の教育の難しさ,障害対応の難易度,現場の問題例・システム障害,システム障害対応の定義・登場人物と役割:インシデントコマンダー,作業担当,ユーザ担当,CIO・障害対応プロセス:検知/事象の確認(障害レベルの判定)→業務影響調査→原因調査→復旧対応・障害対応フロー図,オンコールシフト表,連絡先管理表,障害レベル管理表,障害状況ボード,作業タイムチャートシフト表
# 2p142〜245
・システム監視ダッシュボード・War Roomダッシュボード・構成管理データベース・障害対応レベル・フォローザサン,SRE,マイクロサービス・ポストモーテム,なぜなぜ分析,KPT,プロアクティブな改善活動・BCP,カオスエンジニアリング
本記事のもくじはこちら: