SRE(Site Reliability Engineering)とは、元々Googleが提唱したシステム管理とサービス運用に対するアプローチです。SREの特長は、信頼性をシステムの重要な機能の1つと位置づけている点です。SREでは、サイトやサービスの信頼性を向上させるため、コードによって手作業や繰り返し行われる作業(トイル)を減らしたり、システムを自動化して作業量の増大に対応することを重視しています。
近年では、インフラの主流がソフトウェアによって制御可能なクラウドになってきたことで「Infrastructure as Code」が進んでいます。こうした「インフラをコード化しやすくなってた背景」も自動化を重視するSREが注目されるようになってきた要因の1つと言えるでしょう。
なお、SREは従来の運用とは異なる役割であり、SREを担当するエンジニアには、システムの運用経験とソフトウェア開発のスキルの双方が求められます。