システム障害対応に関する最新トレンド:AIops
本日は数年前から話題にあがりつつ、なかなか取り込みづらいAIopsについてご紹介いたします。
「AIOpsの考え方って何?」
「AIOpsってどう取り組めばよいか」
という方にお勧めです!
AIOpsとは?
ひとことでいうならば、
システム運用・保守における「システム障害」や「例外オペレーション」を機械学習による統計処理を用いて、運用高度化・自動化などをすること
という感じです。
ここ数年盛り上がり始めていて、他の業界に比べて運用フェーズは労働集約で都度対応というのがボリュームとしても大きく、改善余地が高いと言われています。(DXレポートでも保守運用コストの増大に触れられていましたね)
Market Guide for AIOps Platforms というレポートの中ではかなり詳しく書いてあります。
AIOpsにおける大事な考え方は何?
他の機械学習にも共通ですが、
1.成功事例をためる
2.事象と引き当てる
3.良い事例を提案する
4.参考になった・ならなかったを判断する。
の4段階を回していきましょう というものです。
私は金融分野に長くいるのですが、1の成功事例をためるをしっかりやられている方がたくさんいるのになかなかその先に進めない方が多いように思います。
原因は2,3が人力で高度な分析をかけられていないことで、なぜそれができないかというと運用保守がコストセンターで原価削減ばかりに目を向けられてしまっているからです。
AIOpsはどう取り組めばよいか?
何はともあれ、データを取ることです。
だからといって、なんでもとればよい!ということを言う人はいますが、個人的にはもうちょっと狙ったほうが良いかなと思います。
2段階必要で、目的を決めて、その目的を果たすためのデータを集める。ことです。
・目的を決める
たとえば、システム障害を検知したい、であれば、それはそれでいいので、これを目的とするというのをしっかり決めましょう。
データたくさんあれば「なんかできるんでしょ?」と言われますが、全然できないです!目的を持たないといいデータなんて集まりませんのでご注意を!
・目的を果たすためのデータを集める
ここはあまり言われていないですが、面白いポイントです。
みなさまシステム障害を人力で検知するならば、何を見ますか?
リソース情報、取引情報、、、たしかにそうですね。これらは使える情報でよくためています。
注目すべきは「見ているのにあまりたまらない情報」です。
たとえば、お客様のセール・イベント情報 とか 世の中で起きた障害情報 とか 顧客から電話があった時の急ぎ具合とか リリース情報 とかです。
AIOpsでかっこよく!という風に最終的に考えるのは大事かもしれませんが、それ以前にどんな情報を見ているか?というのを有識者中心にリスト化するだけでも、今の保守運用が進むかもしれません。
AIopsはこれらの情報が集まってから考えてもいいかもしれませんね
AIOpsをやりたいけど上司がやらせてくれない。。。
私もなかなか上司にOK出してもらえていませんでしたが、AIOpsの最終形を思い描きながら、上司には「有識者がよくみる情報を見える化しましょう」という、ことから地道に始めていました。
これならコストもかからず、上司の「有識者に偏ってしまう」という課題を解決できるので、比較的OKがでやすいです。
上記を地道に1年ほど続けた後に、トライアルなどを用いてAIOpsの効果を見せるといいかなと思っています。
もちろん、AIOpsをはじめ機械学習は大量のデータがないと実現できないです。
よくあるのは、AIOpsの企業がデモ画面を見せてすごいと思えるものを出しても「うちは違うから使えるかわからないな、、、」と言われてしまうことです。
ここで集めていたデータを機械学習にかけて、結果を見せることで「うちでも使えるかも!」と思ってもらえます。
私自身機械学習の資格を取って最終形を描いた上で、2,3年データをため続けていて、やっと取り組みにこぎつけました!
かなり長い年月はかかってしまっていますが、真面目に取り組まれている方が多いと思うので、是非一緒に頑張っていきましょ!