見出し画像

読書「SREをはじめよう」

10月1冊目はオライリージャパンの新刊「SREをはじめよう」です。

まずSREとはなんなのか。本書でははじめにこのように書かれています。

サイトリライアビリティエンジニアリングは、組織がシステム、サービス、製品において適切なレベルの信頼性を持続的に達成できるよう支援することを目的とした工学分野である。

https://www.oreilly.co.jp/books/9784814400904/

SREはGoogleで始まった概念で、ソフトウェアエンジニアリングの原則と手法を用いて、信頼性の高いサービスの運用と管理を行う方法論で、主にシステムの安定性とスケーラビリティの確保を目指しているのですね。

またSREは、DevOpsともQCとも、消防士(これは比喩です)とも異なると説明されています。

特に重要だと思ったこと

自動化:信頼性を確保するための手段として、コストがシステムのキャパシティに対して線形に比例しないこと(つまりO(n)未満であること)を重要視しています。これはスケーラビリティの観点からも非常に本質的なポイントです。もしコストやリソースが問題の規模に対して線形に増加する場合、システムが成長するにつれて運用が非常に難しくなり、持続可能性が損なわれてしまうでしょう。

レジリエンス:システムやサービスが障害やトラブルに遭遇しても、それに耐えて迅速に回復する能力のことを指します。高いレジリエンスを持つシステムは、予期せぬ問題が発生した場合でもユーザーへの影響を最小限に抑え、できるだけ早く正常な状態に戻ることができます。

ローテーション:オンコールのシフトを定期的にローテーションすることで、特定のメンバーに負担が集中しないようにします。チーム全員が均等に責任を分担することで、連続的な負荷を軽減できます。


まとめ

本書は、SREの基本から役割、スケールの方法、避けるべきアンチパターン、エンジニアのインタビューまで網羅しています。多様な視点でSREを理解したい方に最適だと思いました。

いいなと思ったら応援しよう!