RIZAPのエンジニアが、SRE NEXT 2024に初参戦! 【各講演のレポート集】
8月に開催された「SRE NEXT 2024 」にRIZAPメンバーが初参加。ここでは、会期中に開催された数々の講演について、メンバーがそれぞれの言葉で感想をまとめています
(メンバー別⇒参加した講演別に目次を分けています)。
※以下、登壇者の皆さんが資料を公開されているセッションについては、文中で引用させていただいています。
SREエンジニア 赤倉慎太郎の感想まとめ
1.大きな組織にSLOを導入し運用するということ、その難しさ
【概要】
合同会社DMM.comの工藤 純さんによるセッションでした。 DMMという大きな組織にどのようにSLO導入推進しているのかに加え、実際長期間SLOを運用をしないと見えてこない課題点・反省点について解説されていました。
【感想】
大企業におけるSLO導入の流れなどの実践的な知見を学ぶことができました。これまで、SLO導入ついて漠然とした理解しか持っていませんでしたが、具体的な戦略や手法が詳細に解説されており、実務に直結する内容が多く含まれていました。特に、バーンレート値のカタログ化についての説明は、今後の業務において非常に参考になりそうです。弊社でも、これらの知見を取り入れて、より効果的なシステム運用を目指したいと思います。
2.SREの技術トレンド2024
【概要】
4名の有識者が最新のSRE技術トレンドについて語り合うパネルディスカッション形式のセッションでした。主に各社におけるSREへの取り組みに関する具体的な事例や、大規模言語モデルのSREへの応用 (LLM for SRE)についてお話しされていました。
【感想】
SREの最新技術を業務に生かすためのヒントになる知見を深める貴重なセッションでした。特に私個人として興味深かったのは、登壇されていたrrreeeyyyさんの会社(株式会社Topotal)で開発している「Waroom」というインシデント管理サービスでした。(お隣のスポンサーブースだったのでより印象的でした)「Waroom」は、LLMを活用したポストモーテムの自動作成機能が特徴的で、インシデント後の分析と報告作業を大幅に効率化します。インシデント対応の迅速化とともに、データ駆動型の意思決定をサポートするツールとして非常に有用だと感じました。弊社でも、インシデント対応の効率化と品質向上を目指して、このようなツールの導入を検討したいと思います。
PM 越智峻介の感想まとめ
3.SREの考えをマネジメントに活かす
【概要】
近藤健司さんの発表でSREの考えをマネジメントに活かすにはどうするかのセッションでした。SREとマネジメントの共通点、違いなどを分かりやすく解説されていました。
【感想】
SREとマネジメントを比較して考えたことはありませんでしたが、 SREはサービスの信頼性をコントロールしてシステムの期待値を満たす、マネジメントは人の調達・調整などをコントロールして組織の期待値を満たすなど、コントロールする対象は違えど、期待値をコントロールしながら成果を出すのはSREもマネジメントも同じということをおっしゃっていました。私自身はエンジニア出身のPMとして、システム的な考え方をPM業にあてはめる事も多かったので、今後はSREの考え方を吸収し、PMとしてもっと成長していこうと刺激を受けました。
4.敵対的SRE: 300個のジョブをAIチーム全員で支える技術
【概要】
エムスリー株式会社の北川 亮さんの発表でアラート監視をSREとチームメンバーで常にフィードバックを行い、意味のあるアラートにしていこうというセッションでした。
【感想】
アラートを設定したが監視されていない、必要なアラートが飛んで来ないなど、アラート周りの整備を進めようと思っていた矢先だったので大変参考になりました。アラート設定だけではなく、運用に乗せることがSREの重要な仕事だと思うので、実際にアラートを運用するチームも巻き込んで、より良い監視・アラートにしていこうと思いました。また、実務におけるトピックスとして、成功の監視や、対応が必要なアラートとその他のアラートはチャンネルを分けるなど、事例も多くイメージが湧きやすかったです。
インターン生 小川知哉の感想まとめ
5.日本最大口座数を保有するSBI証券のAWSマイグレーションを支えたサービスをソリューション
【概要】
SBI証券の岩本 敦史さんによるセッションでした。オンライン取引システムという信頼性が特に重要なシステムを構築する上で、障害を正しくシミュレートしたり、システムの予期せぬ停止に対する対処方法を擬似的に再現し検証したりすることで、パフォーマンスの高いシステムを実現しているという解説をされていました。
【感想】
本セッションを通して、実践で正しくテストをするための考え方を学びました。負荷テストは様々な方法で行うことができるが、正しく負荷テストを行うための方法の1つとしてAWS DLTを利用することが挙げられました。正しく負荷テストを行えていないというのは、本来負荷をかけたくない場所にまで負荷をかけてしまい、正しいデータを取得できない場合のことを挙げていらっしゃいました。社内プロキシや、内部からテストを行った場合FWやLBなどに負荷をかけてしまい正しい負荷テストを行えていないというのが一例です。この考え方は非常に重要であると感じました。正しいテストを行ったつもりでサーバーがダウンしてしまった場合、想定外の事態に発見や対処が遅れてしまう可能性があるためです。正しくテストを行い、バグや障害の予防、早期発見・対応をできるような環境づくりをしていきたいと考えます。
6.Sky Wayが遭遇したWebRTCの可観測生に関する問題と開発者向け可視化サービス提供までの道のり
【概要】
NTTコミュニケーションズ株式会社 SKYWAY推進室の内田 裕貴さんによるセッションでした。そもそもWebRTC自体が複雑で多機能であったり、動作のほとんどがハードウェアやOSによって隠蔽されておりブラックボックスとなったりしているため、「異常検知」はできても「原因究明」は難しくなっている。そのため、MonitoringからObservabilityへ踏み込む必要があるということを解説してくださいました。Monitoringはシステムの動きや出力を監視し、一定のラインを超えたところでアラートを出す仕組みである。それに対し、Observabilityは出力からシステムの内部状態を把握しエラーの根本をうまく推測する尺度を表します。
【感想】
Observabilityの考えは今後さらに重要になると感じました。特にクラウドが主流となっている現在では、どうしても内部情報を詳細に取得できずクラウド側の問題が発生する可能性もあるためMonitoringだけなくObservabilityも活用し、根本の問題を推測し障害の予防へとつなげることも視野に入れていくことが重要であると感じました。この考え方自体は、SREに限らずどの分野においても大切であると感じるため、多くの分野に活用したいと思います。
(了)
\あなたもRIZAPのエンジニアとして働きませんか?/
▽新卒採用
▽中途採用
この記事が気に入ったらサポートをしてみませんか?