SRE を探求するための情報源まとめ
Google社 が Site Reliability Engineering: How Google Runs Production Systems を 2016年に出版してから 7年 ほどが経過し、 SRE ( Site Reliablitiy Engineering ) という言葉は驚くほどのスピードで世界の System Engineering 、 Software Engineering 、プロダクト開発 に携わる人々に浸透しています。
日本では 2022年 に みずほ銀行 や 東証 が SRE への取り組みを発表し、一部のWeb系企業だけでなく大手企業までも、 SRE の方法論を本腰を入れて取り入れようとしていることがわかります。
また、2023年1月1日から14日で Site Reliability Engineering を検索すると、世界中の企業の Site Reliability Engineering を担当するエンジニアの求人情報がヒットします。
Site Reliability Engineering after:2023-01-01 before:2023-01-14 - Google 検索
Search: `Site Reliability Engineering after:2023-01-01 before:2023-01-14`
このように、現在進行形で広がりを見せ続ける SRE について、元ネタとなるような Webサイト や書籍をまとめてみました。
Google社の公開しているものを中心に、派生する領域の書籍も掲載しています。
SRE とは何か?
SRE を表現する説明として、「SREとは、ソフトウェアエンジニアに運用業務の設計を依頼したときに出来上がるものです。」という言葉があります。このように、 SRE は 「運用」をソフトウェアエンジニアリング の知識を用いて設計・実装していきます。
つまり、SREの根底には設計対象の「運用」という領域があり、1990年代以降の ソフトウェアエンジニア が積み上げてきた技術や価値観がもとに作られています。
このページに掲載するものは主に「SRE」に直接関連するものですが、実際の業務で効果的に SRE を実践するためには、背景にある関連領域の情報も理解した上で実践していく必要があります。
SREに対して理解を深めながら、そういった部分にも思いを馳せていただけると良いと思います。
Books by Google
Books - Site Reliability Engineering - Google
Site Reliability Engineering
Site Reliability Workbook
Building Secure and Reliable Systems
Classroom by Google
Resources
Foundations and Principles
PostOps: A Non-Surgical Tale of Software, Fragility, and Reliability | USENIX
[Google Production Environment - YouTube](https://www.youtube.com/watch?v=dhTVVWzpc4Q)
(Un)Reliability Budgets: Finding Balance between Innovation and Reliability | USENIX
How to get started with site reliability engineering (SRE) – O’Reilly
[Complexities of Capacity Management for Distributed Services - YouTube](https://www.youtube.com/watch?v=pOo0oKNM9I8)
Practices and Processes
Training Site Reliability Engineers: What Your Organization Needs to Create a Learning Program
SLO Adoption and Usage in Site Reliability Engineering [Book]
Being an On-Call Engineer: A Google SRE Perspective | USENIX
How Container Clusters Like Kubernetes Change Operations | USENIX
Distributed Consensus Algorithms for Extreme Reliability | USENIX
Management
Events
World Wide
Japan
Books
O'Reilly
Online Learning
Others
Monitoring & Observability
入門 監視 ―モダンなモニタリングのためのデザインパターン (2019/1)
Observablitity Engineering
Chaos Engineering
Infrastructure as Code
実践Terraform AWSにおけるシステム設計とベストプラクティス (2019/9)
DevOps
Effective DevOps
組織論
Team Topologies
Service Management
Operations Anti-Patterns, DevOps Solutions
運用設計の教科書 ~現場で困らないITサービスマネジメントの実践ノウハウ (2019/8)
システム障害対応の教科書 (2020/3)
【ITIL4公認】ITIL 4の基本 図解と実践 (2022/10)
User
Community
Etc
Curated Site
よろしければサポートお願いいたします!いただいたサポートはクリエイターとしての活動費に使わせていただきます!