読書「SREをはじめよう」
10月1冊目はオライリージャパンの新刊「SREをはじめよう」です。
まずSREとはなんなのか。本書でははじめにこのように書かれています。
SREはGoogleで始まった概念で、ソフトウェアエンジニアリングの原則と手法を用いて、信頼性の高いサービスの運用と管理を行う方法論で、主にシステムの安定性とスケーラビリティの確保を目指しているのですね。
またSREは、DevOpsともQCとも、消防士(これは比喩です)とも異なると説明されています。
特に重要だと思ったこと
自動化:信頼性を確保するための手段として、コストがシステムのキャパシティに対して線形に比例しないこと(つまりO(n)未満であること)を重要視しています。これはスケーラビリティの観点からも非常に本質的なポイントです。もしコストやリソースが問題の規模に対して線形に増加する場合、システムが成長するにつれて運用が非常に難しくなり、持続可能性が損なわれてしまうでしょう。
レジリエンス:システムやサービスが障害やトラブルに遭遇しても、それに耐えて迅速に回復する能力のことを指します。高いレジリエンスを持つシステムは、予期せぬ問題が発生した場合でもユーザーへの影響を最小限に抑え、できるだけ早く正常な状態に戻ることができます。
ローテーション:オンコールのシフトを定期的にローテーションすることで、特定のメンバーに負担が集中しないようにします。チーム全員が均等に責任を分担することで、連続的な負荷を軽減できます。
まとめ
本書は、SREの基本から役割、スケールの方法、避けるべきアンチパターン、エンジニアのインタビューまで網羅しています。多様な視点でSREを理解したい方に最適だと思いました。