AWSやインフラ知識だけじゃもったいない！エンジニアなら知っておきたい、APMのすすめ

日本IBM CSM TEAM

2024年11月14日 17:30

「AWSは必須だよね」
「サーバーやネットワークは得意」
「運用なら任せて欲しい」

みなさん素晴らしいエンジニアです。インフラエンジニアは代えがきかない運用の要です。私たちがシステムを円滑に、滞りなく利用することができるのはひとえにエンジニアのみなさまのおかげといえます。

本当にありがとうございます…！

ところで「APM」について、どれくらいご存知でしょうか？

AWSと空目してしまいそうですが、APMはApplication Performance Managementを指しています。アプリケーションパフォーマンス管理、あるいはアプリケーション性能管理とも呼ばれています。

APMは近年市場も大きくなってきており、AIと合わせて今後、運用の要のツールとなるでしょう。

今回の記事は、AWSやインフラ知識に深い理解を持っている人に、よりAPMを知ってもらうための記事となります。

第２回以降の記事では、APMに関わる内容を資料とともにお届けします！

早速、内容に入っていきましょう。
※この記事は5分で読めます。

結論:APMはアプリケーションの健康診断をするツールです。

細かいことは抜きにして、まずは結論から述べてしまいます。
APMはアプリケーションの可観測性を高めたツールです。

アプリケーションパフォーマンスマネジメントの名が指すように、アプリケーションの動作やトランザクションレベルで可視化しています。

従来の監視ではインフラの使用状況や動作などを見ていました。そこでエラーが起これば警告を発し、ログで確認する流れです。

APMの良いところは、ログだけではなく、アプリケーションのエンドポイントごとの可観測性が高くなっていることです。また、機械学習を活用することで、どこで障害が起きているのか、どんな障害なのかまで把握することができます。

今まで人の手でログから情報を見極め、障害の切り分けをしていた部分が自動化されているのです。まさに、専属の医師がついた、アプリケーションの健康診断ツールといえるでしょう。

APMを活用すると、どんなメリットが得られるの？

APMを利用するメリットを理解すれば、運用がさらに楽になることが理解できます。

可観測性をキーワードとして、3つのメリットを見ていきましょう。

システムやアプリケーションの見えなかった場所まで、目を通せる。

運用者の方には慣れた言葉かと思いますが、メトリックと呼ばれる指標が存在しています。

健康診断で例えるなら、採血の結果がわかりやすいです。白血球、赤血球、γ-GTPなど、各種の「指標」をメトリックと呼びます。私たちは医師から、それらの情報をもとに、健康状態が良好か教えてもらうことが可能です。

ではシステムではどうでしょう？

従来からメトリックは様々存在していました。しかし、セッションやトランザクションの数値まで見るとなると、手間がかかります。APMではそれらをダッシュボードに表示することを可能とし、運用初心者では見えなかった場所まで目を通すことができるのです。

もう障害特定に苦しむことはない、機械学習の力を借りよう。

運用において、切り離すことができないのが障害の発生です。問題の切り分け、調査、特定といった段階を踏んでいきますよね。この障害の難易度が高ければ高いほど、システム復旧までの時間は長くなってしまいます。

ユーザー、あるいはお客様のいるシステムであれば、出来るだけ短いに越したことはありません。

APMはそれらの時間を、可観測性と機械学習の力を借りて、短縮します。警告や障害が出た時点で、すでに分析が走り、調査者はその切り分けと特定を行うだけで済むのです。

障害特定が楽になることは、チーム全体の士気を高めることに繋がるでしょう。

意思決定までの時間がより早く、的確になる。

APMのダッシュボードのデータは、蓄積されていき、利用者にとっては同じ状況が起きた際の指針となります。「飽和度」のメトリックによって、どれくらいの負荷がかかるとシステムのパフォーマンスが下がるのかを知ることができます。

あらかじめどの程度のリソースが必要なのか、過去のデータやパフォーマンスの推移から予測が可能です。

利用時間が長くなるほど、データが蓄積され、意思決定の時間は早く、より的確になると言えるでしょう。

どんな企業が導入しているの？事例は？

前提として、IBMからIBM Instana Observabilityと呼ばれるAPM製品が提供されています。

次回以降の記事では製品について資料と共にお伝えします。

本編ではAPMについて、どんなことができるのかを知っていただきたいと考えています。導入されている事例を１点ご紹介します。これはIBM公式のページに記載されている内容です。

その他の企業様の事例も掲載されておりますので、お客様事例のリンクをご参照ください。

https://www.ibm.com/jp-ja/products/instana

セブン&アイ・ネットメディア様の事例

『セブン&アイ・ネットメディアが「システム障害の原因究明」を迅速化できたワケ』という表題の通り、内容はAPMの導入によってどのように迅速化に繋がったのかが記載されています。

インフラ部分のみを監視対象としていたツールにメスを入れ、従来の監視手法から、APMへの切り替えを行なったことが実際の担当者から説明されています。

可観測性を高めるAPMによって、運用チームにどのような変化が起きたのか、それによってどのように迅速化できるようになったのか？規模が大きくなるシステムにも柔軟に対応できる、APMの効果をご覧ください。

引用元：
https://www.ibm.com/downloads/documents/jp-ja/107a02e94f48faac

第一回の〆：APMを広めていくために、今後は資料やロードマップを展開します。

今回の記事ではシンプルなAPMの概要、メリット、その効果を説明してきました。この記事を皮切りに、APMへの理解を深めていただければと考えています。

どんなシステムでも起こる障害への対応や運用に、APMが必要不可欠な時代が来ています。規模に関係なく、アプリケーションのパフォーマンス向上に効果を発揮するツールです。

今後の記事では、各エンジニアから見たAPMについての資料や体系的に理解するためのロードマップを提供いたします。クラウドやオンプレミスの監視、ユーザー体験など、様々な場面で活躍するAPMについて学習するための一助になれば幸いです。

フォローいただくと、更新時にわかりますので、どうぞご活用ください。

取り上げたい内容があればコメントを、記事へのスキもお待ちしております！閲覧ありがとうございます！

執筆

日本アイ・ビー・エム株式会社
テクノロジー事業本部
カスタマーサクセスマネージャー

小石川将晃