知る人ぞ知るサービス紹介:インシデントレスポンスサービス
今回はインシデントレスポンスサービスをご紹介させていただこうと思います。
あまり聞きなじみがない方もいらっしゃるかもしれませんが、私の解釈ですと「インシデント発生から暫定対処まで」に着目したサービスです。
ただ、インシデントレスポンスという言葉が出回り始めたことはセキュリティ方面からだったみたいです。
IT alerting software とか IT operation managementとか、いろんな言われ方をしますが、「インシデント発生から暫定対処まで」という概念は、セキュリティでもシステム障害でも一緒かなとは思っています。
以下に紹介するのは英語ばかりですが、そんなものもあるんだーということを知っていただけると幸いです。
◆インシデントレスポンスサービスどんなことができるの?
さっくりは「エラーメッセージを受け取って、それをシステムに登録して、メールや電話を飛ばしたり、1stアクションを行ったり、発生から暫定対処までに誰がどのタイミングで何をしたかを可視化する。その後ダッシュボードでエラーの具合も分析できる」というものです。
エラーメッセージをたくさんのサービスとインテグレーションがしやすくなっていたり、画面インタフェースが見やすかったり、、、
若干特長はありますが、基本的にはこんな機能群を持っています。
◆pagerduty:急成長・AIOpsが得意
2019年4月にニューヨークに上場して、急成長をしている会社。
B2B Saas業界では有名で、成長具合がSalesforceと並んで紹介されるほど。
売上が2億ドルぐらいに達している大企業になってきています。
特長は、AIOpsが得意なところかなと思います。受け取ったエラーの分析やポストモーテムをするようなプロセスがうまく組まれているなぁという印象です。
基本プランではシンプルにエラーを受けてエスカレ電話・メールが基本で、オンコールのスケジュールがかなり柔軟に選べます。使ってみると最初にエラーメッセージが出てこないなど、ちょっと私たちが普段接している感覚とは違うものですが、そういうノウハウもあるんだな、というのをわかっていただけるものかなと思います。
◆Opsgenie:見やすいIF/jiraとの連携
https://www.atlassian.com/ja/software/opsgenie
2018年にAtlassianが買収。プロジェクト管理ツール「jira」と組み合わせて、オペレーションを改善を狙ったものかなと思っています。
Atlassianは他にwikiであるconflenceを持っていて、買収を繰り返しながらサービス群を増やしていっていて、その一部になっています。
特長は、見やすいIFとjiraとの連携かなと思います。
画面を見てもらうと、私としては一番親しみやすく見やすいIFとなっていました。
また、もしjiraを既に利用済みならば、連携上は優れていく(今後優れる?)と思われるため、一緒に使うのが良いのかなともいます。
◆Splunk On-Call(Victor ops):データ分析との連携
https://www.splunk.com/ja_jp/observability/on-call.html
2018年にSplunkが買収。ログ分析を得意とする「splunk」と組み合わせて、オペレーションを改善を狙ったものかなと思っています。こちらも買収を繰り返しながらサービスラインナップを広げている段階なように見えています。
特長は、データ分析との連携かと思っています。もともと高度なログ分析を得意としていますが、そこで検知したアラートをsplunk on-callにつないで一時対処までをスムーズに。
かつsplunkはアラーム後のオペレーションにも着目しているとうたっており、人の動きの支援を目指しているように見えます。
この記事が気に入ったらサポートをしてみませんか?