見出し画像

【資料付き】ゴールデンシグナルを掴む!多彩なメトリックと共に進むこれからの監視のあり方

CPUやメモリ使用率は、昔から見られてきた指標ですよね。

少し前までは、オンプレミスのサーバーにアプリケーションがデプロイされるのが標準的でした。そのため、多彩なメトリックを監視しなくても、使用率や負荷を監視していればシステムの状況が把握できていました。

しかし2010年ごろを境に、マイクロサービスの考え方が広がると、それだけでは足りない状況がどうしても出てくるようになります。そこで、今まで監視対象にしていなかったメトリックを監視するようになっていきます。

これを指す言葉があるとすれば、「オブザーバビリティ(Observability)」でしょう。「可観測性」と日本語で翻訳されており、「観察(Observe)」と「能力(Ability)」を組み合わせた言葉です。

オブザーバビリティについて理解するためには、オライリー・ジャパンから出版されている「オブザーバビリティ・エンジニアリング」がおすすめです。

https://www.oreilly.co.jp/books/9784814400126/


APMではアプリケーションを監視し、多彩なメトリックから問題を検出し、可用性を保ち続けているといえるでしょう。


さて、今回の記事では、下記の2点をお伝えします。
1.ゴールデンシグナルってなんでしょう?
2.本記事で案内する第3回の資料のポイント。


本記事では資料が添付されます。
あわせてご覧ください!


本記事での資料

多様なメトリックとシステムの健全性維持
- ゴールデンシグナルや機械学習 -

リンクはこちらから。


ではさっそく記事に入りましょう!
この記事は、3分で読めます。


ゴールデンシグナルってなんでしょう?

みなさんはどれくらいメトリックの種類をご存知でしょうか。
使用率はもちろん、リクエスト数やディスクI/Oなど様々ですよね。

実は、ゴールデンシグナルはメトリックの重要な4項目のことです。

さっそくその詳細を理解していきましょう。

ゴールデンシグナルを指す4つのメトリックは?

ゴールデンシグナルを指している4つのメトリックは以下です。

・レイテンシ
・トラフィック
・エラー
・飽和度

今まで監視していたメトリックも含まれています。アプリケーションの可用性を高めるために見ていたのであれば、納得できますね。

ゴールデンシグナル

ゴールデンシグナルを見ていくことで、マイクロサービスであっても、効果的な監視ができるようになってきているといえるでしょう。

参考:https://cloud.google.com/blog/ja/products/management-tools/the-right-metrics-to-monitor-cloud-data-pipelines

どうしてこの4つがゴールデンシグナルなの?

4つのメトリックが、どうしてゴールデンシグナルと呼ばれているのでしょうか?
一つひとつの役割を知ると、納得感を得ることができます。

レイテンシ:通信の遅延時間。この指標を見ることはパフォーマンスに繋がります。
トラフィック:リクエストといった、負荷によってシステムの変化を見ることです。
エラー:エラーの把握はなによりも大切なことです。優先度の設定も可能になります。
飽和度:システムがどの程度のパフォーマンスを維持するのかを知る指針です。

これら4つの理由から、ゴールデンシグナルと定義されています。

遅延の改善、負荷に耐えうるか、エラーを特定できるか、パフォーマンスを維持できるか。これらを維持することが、可用性を高め、健全性の高いアプリケーションを実現するためです。

ゴールデンシグナルはその手がかりと言えるでしょう。

その他のメトリックはどういう認識でいればいいの?

メトリックは多彩にあることはみなさんご存知かと思います。

ゴールデンシグナルを知ると、「ゴールデンシグナルだけ見ていればいいのか」という考えが浮かぶこともあるでしょう。

しかし実際はそうではありません。APIの応答時間やセッション数など、細かな部分まで見ることで、多くの問題に焦点を当てることができます。そのため、その他のメトリックを知っておくこと、監視できる状態に置くことでボトルネックの解消の実現も可能です。

ゴールデンシグナルだけが重要ではなく、ゴールデンシグナルから「スタートしていく」ことが重要といえるでしょう。

第3回のAPM資料の案内

今回の資料は、上記で説明したゴールデンシグナルとメトリック、そして多彩なメトリックを取得したAPMによって、監視のあり方がどう変化したのかを説明しています。

また、APMが従来の監視、いわゆるインフラリソースの監視となにが違うのかに焦点を当てています。機械学習による変化や多彩なメトリックがどのような可能性を持つのかを理解していただければ幸いです。

メトリックとデータポイント

昔から多くのメトリックを見ることはできました。しかし「複数箇所の出力を見比べる」あるいは「時系列で変化する数字の差分を計算する」など多くの手順が必要なものもあります。

APMによって容易に見れるようになったメトリックの意味を紹介しています。また、メトリックやデータポイントといった用語を図を用いてわかりやすく説明しています。

資料を見ることで、言葉の意味を視覚的に理解してみてください。

ゴールデンシグナルの効果

4つの重要なメトリックについては先に述べた通りですが、その効果や目的は分かりづらいとも言えます。

ゴールデンシグナルが見れるとどのような良い面があるのか、それが運用にどう関わるのか、効果を知っていることが重要です。

例えば、「健全なシステム」という言葉を見ることがあります。しかし、健全とはどのような状態を指しているのか、実際は曖昧ということに気づいているでしょうか?

そのため資料では「健全なシステム」がなんなのか、ということも解説しつつ、ゴールデンシグナルの効果を解説しています。

メトリックと機械学習による、システム維持フローの説明

APMではメトリックをトレースしているのはもちろんのこと、機械学習が用いられているのはご存知でしょうか?

IBM Instana Observabilityでは、AI/MLでのインテリジェントなアクションによって、問題を素早く検知することを述べています。

また、時系列でもどのようにリアルタイム検知をしているのか、そして、システムを維持するための意思決定をするのか、視覚的フローを用いることで、理解しやすくしています。

第3回の〆:ゴールデンシグナルは重要なひとつ。その他のメトリックも理解しよう

ゴールデンシグナルという言葉が一人歩きしすぎていると、それだけで事足りてしまうのでは?という感覚に陥ります。
ですが、あくまで重要な指針のひとつであるという理解が大事です。

「多彩なメトリックが、容易に見れるようになった」
「監視することで、ボトルネックの箇所が手に取るようにわかる」

これらを抑えることで、ユーザー体験の改善もエラー発生時の対応もさらに迅速になります。

APMを活用することは生成AIを活用することに比べると、地味に見えることもあるでしょう。ですが、目新しいものが、本当に必要なものとは限りません。

システム監視はどうあっても切り離すことができない技術です。資料を含めて、さらに理解を深めていただき、今後も効果的な内容や事例の紹介もできればと考えております。

次回もよろしくお願いいたします!


冒頭にも記載しましたが、今回の資料は下記より閲覧可能です。


多様なメトリックとシステムの健全性維持
- ゴールデンシグナルや機械学習 -

リンクはこちらから。



フォローしていただくと、新着記事が出た際に分かりますのでご活用ください。スキやコメント、資料についてなどご意見お待ちしております。
閲覧ありがとうございます!



執筆

日本アイ・ビー・エム株式会社
テクノロジー事業本部
カスタマーサクセスマネージャー

小石川 将晃

いいなと思ったら応援しよう!