Google社 が Site Reliability Engineering: How Google Runs Production Systems を 2016年に出版してから 7年 ほどが経過し、 SRE ( Site Reliablitiy Engineering ) という言葉は驚くほどのスピードで世界の System Engineering 、 Software Engineering 、プロダクト開発 に携わる人々に浸透しています。
日本では 2022年 に みずほ銀行 や 東証 が SRE への取り組みを発表し、一部のWeb系企業だけでなく大手企業までも、 SRE の方法論を本腰を入れて取り入れようとしていることがわかります。
また、2023年1月1日から14日で Site Reliability Engineering を検索すると、世界中の企業の Site Reliability Engineering を担当するエンジニアの求人情報がヒットします。
Site Reliability Engineering after:2023-01-01 before:2023-01-14 - Google 検索
Search: `Site Reliability Engineering after:2023-01-01 before:2023-01-14`
このように、現在進行形で広がりを見せ続ける SRE について、元ネタとなるような Webサイト や書籍をまとめてみました。
SRE とは何か?
Fundamentally, it's what happens when you ask a software engineer to design an operations function. When I came to Google, I was fortunate enough to be part of a team that was partially composed of folks who were software engineers, and who were inclined to use software as a way of solving problems that had historically been solved by hand. So when it was time to create a formal team to do this operational work, it was natural to take the "everything can be treated as a software problem" approach and run with it.
SRE を表現する説明として、「SREとは、ソフトウェアエンジニアに運用業務の設計を依頼したときに出来上がるものです。」という言葉があります。このように、 SRE は 「運用」をソフトウェアエンジニアリング の知識を用いて設計・実装していきます。
つまり、SREの根底には設計対象の「運用」という領域があり、1990年代以降の ソフトウェアエンジニア が積み上げてきた技術や価値観がもとに作られています。
このページに掲載するものは主に「SRE」に直接関連するものですが、実際の業務で効果的に SRE を実践するためには、背景にある関連領域の情報も理解した上で実践していく必要があります。
Books by Google
Books - Site Reliability Engineering - Google
Site Reliability Engineering
Site Reliability Workbook
Building Secure and Reliable Systems
Classroom by Google
Foundations and Principles
PostOps: A Non-Surgical Tale of Software, Fragility, and Reliability | USENIX
[Google Production Environment - YouTube](https://www.youtube.com/watch?v=dhTVVWzpc4Q)
(Un)Reliability Budgets: Finding Balance between Innovation and Reliability | USENIX
How to get started with site reliability engineering (SRE) – O’Reilly
[Complexities of Capacity Management for Distributed Services - YouTube](https://www.youtube.com/watch?v=pOo0oKNM9I8)
Practices and Processes
Training Site Reliability Engineers: What Your Organization Needs to Create a Learning Program
SLO Adoption and Usage in Site Reliability Engineering [Book]
Being an On-Call Engineer: A Google SRE Perspective | USENIX
How Container Clusters Like Kubernetes Change Operations | USENIX
Distributed Consensus Algorithms for Extreme Reliability | USENIX
World Wide
Online Learning
Monitoring & Observability
入門 監視 ―モダンなモニタリングのためのデザインパターン (2019/1)
Observablitity Engineering
Chaos Engineering
Infrastructure as Code
実践Terraform AWSにおけるシステム設計とベストプラクティス (2019/9)
Effective DevOps
Team Topologies
Service Management
Operations Anti-Patterns, DevOps Solutions
運用設計の教科書 ~現場で困らないITサービスマネジメントの実践ノウハウ (2019/8)
システム障害対応の教科書 (2020/3)
【ITIL4公認】ITIL 4の基本 図解と実践 (2022/10)
Curated Site
