見出し画像

SRE大忘年会 2024@渋谷 イベントレポート

primeNumberのCTOの鈴木(@kekekenta)です。
先日、渋谷で開催された「SRE大忘年会(srest主催)」に参加してきました。
各社のSREの今年の取り組みや、自社でも使えそうなTIPSがいくつも紹介され、学びになるイベントでした。
当日参加できなかった方も多くいらっしゃると思いますので、今回はイベントレポートをお送りします!

※ srest (https://srest.io/) は、SREをrestさせる(休ませる)ことをコンセプトにしたプロダクトとのことでした。いい名前。

イベント概要

イベント名: 渋谷でSRE大忘年会
開催日: 2025/12/18
場所: WeWork 渋谷スクランブルスクエア ※オフライン
参加者: SREを中心に約50名が集まりました。


発表されたLT一覧

今回のイベントでは、計6名の方がそれぞれ骨太なLTを発表してくださいました。各LTの登壇資料にアップロードされているので、ぜひチェックしてみてください!

失敗から始まるリアーキテクト: SREの実践例で見る改善の道筋

登壇者:srestプロダクトオーナー兼SREマネージャー 山北さん(@sre_yamakita

srestさんから、レポートも公開されてました。

LTの中では、2024年に取り組まれたインフラのリアーキがいくつか紹介されていました。
Terraformディレクトリ構造の見直しについて、apply速度や安全性などをもとにいくつかの比較を行われ、見直しを実行されたとのことでした。サービス拡大とともにクラウドリソースが増える環境において直面する課題のため、参考になる方も多かったのではないでしょうか?

マルチプロダクトに適したインシデントレスポンス体制へ

登壇者:株式会社ナレッジワーク 樋口 直人さん(@nnhiguchi

マルチプロダクト展開を進めているナレッジワークさん。

プロダクトが増え、SWEのチームも増えている状況です。
SWEのチームに対し、SREの人数も比例して増やしていけるのが理想ですが、どうしても採用面で実現が困難になります。(どこの会社さんも、SREのメンバー探しに苦労されているのですね。。)

多くのプロダクトを展開しているのに対し、なんとSREは2名だけだとか。
そこで、Platform SREの考えをとり、各チームが信頼性を自律的にコントロールできるようなPlatformの提供を行っているとこのことでした。
また、各チームのSWEからProduct SREを立候補してもらうことで、オーナーシップを明確にしているようでした。

また、インシデントを減らす取り組みについても紹介されていました。
インシデント数は遅行指標であるため、目標とした場合に成果が分かりづらいという課題があります。
それに対しナレッジワークさんでは、インシデント発生時のポストモーテムで上げられた再発防止策の完了率をOKRに設定したそうです。
よりコントロールしやすい中間指標として鮮やかなKPI設定だと、感銘を受けました。

開発チーム含めてOKRに設定することで、90日以内の再発防止策完了率を100%まで持っていけたとのことでした。(素晴らしい)

ゼロから創る横断SREチーム 挑戦と進化の軌跡

登壇者:ファインディ株式会社 安達 涼さん(@adachin0817

「会場の中で、Findyを知らない人いますか?」との問に、だれも手を上げていなかったのが印象的でした(知名度100%)

FindyにおけるSREとしての1年間の取り組みが数々紹介され、これだけのことをこの人数でやり遂げたことに驚きました。
セキュリティ、ガバナンス中心に、ゼロからSREを広めていくようなフェーズの会社さんで非常に参考になる話をいただけました。

今年はSLI/SLOの導入を頑張ってました!

登壇者:シンプルフォーム株式会社 守屋 邦昭さん(@Zepprix

シンプルフォームさんから、SLI/SLOの導入について紹介されました。

当初は、すでにメトリックスを監視するダッシュボードがあり、SLI/SLOの導入の必要性を感じていなかったそうです。
しかし、各チームの品質に関する価値観のズレを感じ、SLI/SLOの導入を進めることになったそうです。

エンジニアだけではなくCSメンバーも含めたSLI/SLO策定委員会を発足し、ブレストを通しながら指標の策定に至ったそうです。

弊社primeNumberのTROCCOにおいても、SREチームが主導してCSチームを含め同じようなプロセスでSLI/SLOの導入を進めました。
一番顧客の声を理解しているCSチームを巻き込み、数値を合意することは、とても良い取り組みだと思います。

また、ブレストで出てきた脆弱性ライブラリの混入率というSLIの観点も紹介され、SREだけでなく多くのエンジニアを巻き込んでSLI/SLO設定を進めることで、自分たちだけでは考えられなかったより良い観点が出てきたと振り返っていました。

いろいろやった2024~振り返りと来年の抱負~

登壇者:株式会社リーディングマーク 山田 哲也さん(@techi_dev

はじめてのリーダーとしての1年間の振り返りが紹介されました。
採用活動に関わり候補者に対して事業や組織を説明する必要が出てきて、改めて会社に対する理解が深まり視座があがったという話が、とても印象的でした。

実直に反省点や展望を語られる、素晴らしいリーダーだと感じました。

Fanstaの1年を大解剖!一人SREはどこまでできるのか!?

登壇者:株式会社MIXI 井上 翔太さん(@syossan27

Fanstaの一人SREとしての1年間の取り組みが紹介されました。

DMARC対応からFour Keysの導入、MySQL 8移行の調査など、とても一人でやり遂げたと思えないぐらいの功績が数々と紹介されました。

k8sアップグレードを契機としたnginxのupstream不通問題など、k8sで運用するTROCCOでも似たような原因の問題を経験したことがあるため、非常に親近感のわく話でした。

これらの取り組みに加え、各種カンファレンス登壇・執筆活動を行っており、「いつ休んでるの?」と思うぐらいの濃いアウトプットの1年でした。

懇親会での交流

発表後には懇親会が開催され、多くの登壇者・参加者が参加しました。懇親会まで用意くださったsrestさん、誠にありがとうございますmm
SLO策定や運用の話など、各社さんどこも同じような苦労されていることが伺いしれ、大変有意義な会でした!

primeNumberのSRE Kaigi参加のお知らせ

弊社primeNumberは、2025/1/26(火)に開催されるSRE Kaigiにもブース出展します!

今回のSRE大忘年会に参加された会社さんも多く参加するとのことで、当日お会いできるのを楽しみにしています!
ぜひprimeNumberのブースにもお越しください!

SRE絶賛募集中です

クラウドETLのTROCCO®、クラウドデータカタログのCOMETA®の開発チームでは、SREを募集しています!
TROCCO®のプロダクトの一番の価値は信頼性です。データパイプラインという特殊なプロダクトの信頼性を支えるチャレンジングな課題を、一緒に解決していきましょう!

まずは、弊社SRE EMの髙塚とのカジュアルにお話しましょう!
カジュアル面談申し込みリンク

年末のご挨拶

今回の「SRE大忘年会」に参加した皆様、そして発表してくださったスピーカーの皆様、この記事をご覧の皆様、1年間お疲れ様でした。
来年もSREとして様々なチャレンジをやっていきましょう。
よろしれば、この記事のシェアもお願いします!
それでは良いお年をmm


いいなと思ったら応援しよう!