見出し画像

PagerDuty on Tour TOKYO 2024 参加しました

8/6 の PagerDuty on Tour Tokyo 2024 に参加した感想です。

全体

テーマは「AIと自動化の新時代におけるオペレーショナル・レジリエンスの再構築」。
午後日中はビジネス観点の話、夕方からはエンジニア観点、最後はネットワーキングパーティという構成でした。

インシデントレスポンスという、システムを扱えば誰しもが向き合うところの知見が詰まったイベント。
改めて言われてハッとする話もあれば、今までの考え方のままでいいの?という固定感持ったところに気づきを与えていただける話もあった内容でした。

ビジネスセッション

途中、会社の用事があって抜けたりで、結果基調講演だけの聴講になりました。
どこまで書いていいか分からないので、講演内容より感想中心に。

基調講演1 : JR東日本のインシデント対応の話

タイトルをメモし忘れた (というか遅刻した) ので、正式タイトルではないです。
20年続いた7.19 の影響は?とか、システム運営の話とか。

インシデントレスポンス、仕組みを入れることで数分の対応が秒になる効果というのが一つ印象的なポイント。
「数分でできるならいいじゃん」という感覚もパッと聞くとあるのだけれど、いざインシデント起きた時って「同件かもしれないけど別件かもしれないインシデント」が複数出るんですよね。これにそれぞれ対応すると、チリツモ。

リーダーシップの話。人数がいれば、思ってることがずれるからこそ、価値観やビジョンを示して方向を合わせる。ここは「みんなわかるだろう」は、わかってるつもりでどんどん別方向を向いてしまうので、大事なポイント。

基調講演2: AIと自動化が実現するオペレーショナル・エクセレンス

PagerDuty Chief Product Development Officer の Jeffrey Hausman さんのお話。

7.19 の話がふたたび。デジタルオペレーションと、物理オペレーションの観点から見ようという話から始まった。

「51%のインシデントは顧客からの連絡で気づく」
出典はメモできてないので忘れましたが、衝撃的な話。
よく「顧客に言われて初めて気づくはカッコ悪いからやめよう」という話をするのだけれど、これが実態ですね。監視で頑張っても、難しい世界。

事例セッション: トヨタCCoEのインシデント管理効率化に向けた挑戦 

TPS にあてはめた、インシデントレスポンスが開発体験に与える効果を考えようというお話。

正味作業、付加価値のない作業、ムダであげると、インシデントレスポンス中の時間はムダに該当するものが多い。これ削ろうと。
運用の手間を減らし、かつ運用よく分からんという人もサポートできるプラットフォームが組織にとって大事。
運用よく分からんという人は、よく分からんと言ってくれればいいのだけれどそのまま運用に入るケースもあるかも…と思うと恐怖ですね。

事例セッション: PagerDutyを中心とする運用監視の高度化 〜生成AIの活用、MSPサービスのこれから〜

iretさんの事例。
後半からしか聞けなかったのだけれど、PagerDutyでインシデントレスポンスの整備をしたら 1000人月効率化できたという

特別講演: これからの企業のAI活用とビジネス戦略 〜AIが超加速する予測不能な未来をチャンスに出来る要諦と実例〜

尾原 和啓さんのお話。
スピード感ある話の中でバシバシ情報くるので、何回か繰り返し見たい内容。

「正解主義から修正主義へ。
   予測可能な範囲で動くところから、操縦可能な範囲で動く時代へ。」
わかりやすい言葉。
「正解のない世界」という話をした時に、ままあるのが「正解ないから行き当たりばったり」という考え方。操縦可能な範囲かを見定めておくのは前提なんですよね。
この話、人に伝える時に慎重になりたいところが、一つ説明しやすくなりました。

もう一つわかりやすかった話は、Exponential思考の話。
未来を予測する時って直線上の未来を想像するけれど、今の時代は指数関数的に変わってるよと。
予測の考え方変えないとやってけないというのはほんとに。

エンジニアセッション

ビジネスセッションとエンジニアセッション、時間で分かれてるっていうイベントスタイルがまた面白いと思いました。
頭を切り替えて聞ける。

約10年間MIXIのインフラを支えてきたPagerDutyの活用事例

MIXI 清水さんの事例紹介。
オンコールを自分用にカスタマイズできたり、手動で簡単にインシデントあげたり、対応できてなかったら勝手にエスカレーションしたりしてくれたらいいという、PagerDutyの魅力の話がわかりやすい。

DatadogとPagerDutyで改善するシステム障害対応

Datadog と PagerDuty 組み合わせたら強力だよ、というDatadog 萩野さんのお話。
対応履歴をいろんなところから確認するのしんどい。それがまとまるのは、運用したことある人ならみんな嬉しい。

生成AI時代における運用モダナイゼーションとPagerDutyの活用

スライドは見つけられてないので、見つかり次第アップロード。

スリーシェイク尾張さんの、運用での生成AI活用の話。
「生成AIがある今、運用保守業務を再設計しませんか?」という投げかけが響く。
今までの「こうしなきゃいけない」が、必ずしもそうでもなくなっているんですよね。

実態として試した、運用業務での生成AI活用の事例がたくさんあって素敵でした。

エンタープライズ企業の障害対応革新 – PagerDuty導入とその成果

イオンスマートテクノロジーの齋藤さん、林さんのお話。
スライド12ページ目の、エンタープライズ企業の障害対応あるあるが会場の人に刺さりまくってた。全員サッカー(ボールにちゃんと触るのは2, 3人)とか、記録されないとか。

後半のPagerDutyのところで会ったお話「MTTAはもともと短かったけれど、直そうとするとExcel申請とかがったところがネック」というのはわかりみ深かった。
一見うまくいってるんですが、行動制約かけてるんですよね。それ以上のステップに進むのを阻害してしまってる。

あと、Qiitaに掲載された PagerDuty yamadaさんの記事(PagerDuty設定ガイドシリーズ)のおすすめがいい知見になりました。メモメモ。
https://qiita.com/ymotomu/items/42f825accbfca287464a

ネットワーキング

PagerDutyは魅力的ながら、実際使おうとすると「今で十分じゃないの?」とどう対話するかが難しい。
入った世界を知ってる人からすると「なんでその世界に行かないの?」なんだけれど、知らない世界からすると理解できないというか。
小さいところで使い倒して、羨ましがらせるみたいなのが現実的なんですかねーと話しながら思ったところでした。

LTしていただいた皆様には申し訳ないですが、話し込んでました。流していただいたスライドだけメモ。
オンコール運用をほんの少し効率的に行うためのTips
MSP × Operations Consoleの活用法

あと、ネットワーキング参加記念でペイジーくんいただきました。大事にしよう。


いいなと思ったら応援しよう!