アプリケーションパフォーマンス監視(APM)は、クラウドにデプロイされた最新の分散型マイクロサービスベースアプリケーションの信頼性とパフォーマンスを維持する上で不可欠です。しかし、従来のAPMツールを最新のアーキテクチャーで使用すると、多くの場合、データのサイロ化、コンテキストの欠如、インシデントの解決を遅らせるブラインドスポットなどの課題に対処する必要が出てきます。

New Relicは、次期APMの進化版であるNew Relic APM 360の提供を開始します。アプリケーションスタックと開発ライフサイクル全体にわたる重要なテレメトリの統合ビューをチームに提供することで、これらの制限を排除し、アプリケーションの健全性とパフォーマンスの向上に必要な日々の洞察とワークフローを提供します。現在では、役割や経験に関係なく、すべてのエンジニアが問題の上流と下流の影響を理解し、新たな傾向を捉え、問題が顕在化する前に防ぐことができます。

New Relic APM 360を使用すると、機能横断的なチーム(開発、運用、セキュリティなど)において以下のことが可能になります。

  • アプリケーションの健全性を一目で確認できるビューで、問題を防止
  • ユーザーやビジネスコンテキストと組み合わせたフルスタックビューを使用して、デバッグを高速化
  • ガイド付きワークフローとデータの推奨事項により、監視ギャップを排除

一目で分かるアプリの健全性で問題を防止

New Relic APM 360は、APMのSummaryタイルを使用して、スタックおよびアプリケーション開発ライフサイクル全体の重要な健全性指標に対するリアルタイムの洞察を1か所で提供します。これには、サービス全体の健全性を監視し、新たな問題を早期特定する上で重要な問題、デプロイメント、サービスレベル、脆弱性に関する情報が含まれています。ユーザーは画面を切り替えずに、重要な情報すべてに1か所で継続的にアクセスできるようになりました。

APM 360のSummaryタイルには、Gatewayサービスの問題、デプロイメント、サービスレベル、脆弱性が表示されます。

たとえば、GatewayサービスのSummaryタイル(前のスクリーンショット)には、次の情報が表示されます。

  • Issueタイル:Gatewayサービスに関する注意を必要とする、重大なアラートが1つあることを示しています。問題をクリックすると、アラートをトリガーしたトランザクションタイムの急上昇を特定できます
  • Deploymentタイル:前回のデプロイメント後、エラー率が19%低下し、レスポンスタイムが55%短縮したことを示しています。これは、デプロイメントがGatewayサービスのパフォーマンスに悪影響を及ぼさなかったことを示唆しています
  • Service levelタイル:現在は空で、Gatewayサービスにサービスレベルが設定されていないことを示しています。つまり、GatewayサービスがSLAを満たさない恐れがあります
  • Vulnerabilityタイル:セキュリティの問題を防ぐ上で、評価と緩和が必要なGatewayサービスの重大な脆弱性を1つ強調表示します

Summaryタイルに表示される情報を活用することで、どこに注力すべきかについて十分な情報を得た上で意思決定を行い、最適なアプリケーションのパフォーマンスとセキュリティの確保に必要なアクションを実行できます。Gatewayサービスの場合、サービスの健全性とパフォーマンスに影響を与える可能性があるため、重大なアラートと脆弱性に優先的に対処する必要があります。

統合されたフルスタックビューで、迅速なトラブルシューティング

New Relic APM 360は、インフラストラクチャの洞察、エラーユーザーの影響、ログパターン、ディストリビューティッド(分散)トレーシングをゴールデンシグナルを用いて、インテリジェントに統合することで、モニタリングを次のレベルに引き上げます。これにより、憶測での作業を減らし、専門知識に関係なく、すべてのエンジニアが直感的かつ効率的にトラブルシューティングを行えるようになります。アプリケーションのパフォーマンスを上流・下流の傾向と関連付けて、問題がアプリケーションの他の部分に与えた影響をリアルタイムで把握できるようになりました。

APMにおける統合インフラストラクチャ

APM 360での新たなインフラストラクチャ監視では、ホストやサービスの点と点を線へとつなぎ、サービスに影響を与えている割り当てられたリソースを簡単に特定できるようにします。これにより、スタックを横断するシームレスなナビゲートが可能になり、ホストとそこで運用されているアプリケーション間のインタラクションの特定と分析が容易に行えます。

その有効性を説明するために、Gatewayサービスがトランザクションタイムの急上昇によりアラートを受信した前述のシナリオを考えてみましょう。APM概要の統合インフラストラクチャテーブル内のCPUとメモリのメトリクスを調べることにより(次のスクリーンショットを参照)、このパフォーマンス問題の根本原因であるインフラストラクチャを素早く取り除くことができます。

APM 360の統合インフラストラクチャ監視により、CPUとメモリのメトリクスが表示されます。

ディストリビューティッド(分散)トレーシングの統合ビューによる、トラブルシューティングの効率化

ディストリビューティッド(分散)トレーシングは、トラブルシューティングを合理化する上で極めて重要な役割を果たします。これらは、複雑な分散システムの動作とパフォーマンスに関する貴重なインサイトを提供します。APMテレメトリとディストリビューティッド(分散)トレーシングを一緒に表示することで、サービスに影響を与える問題の根本原因を効率的に特定できます。数回クリックするだけで、関連するトレースに移動できるため、問題を包括的に理解できます。

ここでは、前と同じシナリオを使用します。たとえば、Gatewayサービスに直近のデプロイメントがなく、基盤となるインフラストラクチャに明らかな問題がないにもかかわらず、Gatewayサービスのトランザクションタイムが増加している場合です。

APM 360のディストリビューティッド(分散)トレーシングのコンポーネントにより、トラブルシューティングが迅速化されます。APMの概要でディストリビューティッド(分散)トレーシングの洞察を調べると(次のスクリーンショットを参照)、ACMEサービスの遅延とエラー率がGatewayサービスに影響を与えていることがわかります。

APM 360のディストリビューティッド(分散)トレーシングの洞察。関連サービスの継続時間、コール数、エラー率が表示されます。

関連サービスを選択すると、ダウンストリームのACMEサービスレイテンシが急増し、Gatewayサービスに直接影響を与えていることがわかります。(次のスクリーンショットを参照。)ディストリビューティッド(分散)トレーシングをさらに詳しく調べるには、トレースの表示を選択するだけです。

APM 360のディストリビューティッド(分散)トレーシングの洞察。Gatewayサービスに影響を与えるダウンストリームのACMEサービスの継続時間が表示されます。

APM 360のディストリビューティッド(分散)トレーシングの統合ビューを使用すると、問題のあるサービスを素早く分離し、問題の解決を迅速化できます。

ユーザーエクスペリエンスを向上し、ユーザーへの影響を軽減

APM 360では、分析に影響を与えるのは生のエラーメトリクスだけではありません。エラー率に加え、エラーによるユーザーへの影響も表示できるため、ユーザーに最も大きな影響を与えるエラーを特定して優先順位を付け、アプリケーションにおける全体的なユーザーエクスペリエンスを向上させることができます。

前述のサンプルシナリオに戻ると、ACMEサービスがGatewayサービスのパフォーマンスに影響を与えていることがわかります。ACMEサービスをさらに詳細に分析すると(次のスクリーンショットに示すように)、デプロイメント後にエラー率が急増していることがわかります。エラーによるユーザーへの影響を使用すると、builtins:TimeoutErrorがユーザーに最も大きな影響を与えていることが特定できるため、トラブルシューティングで優先順位付けが行えます。

APM 360のエラーによるユーザーへの影響。アプリケーションのユーザーに対して最も大きな影響を与えるエラーが表示されます。

コンテキストに基づくログパターンを使用して、インサイトをより迅速に

エラーによるユーザーへの影響と同様に、ログパターンは検索せずにログデータの価値を見出す最速の方法です。検索すると、根本原因を説明するログがすぐに得られますが、ほとんどのデータは反復的であり、閲覧時にコンテキストを理解するのが困難です。パターンを使用すると、価値の低いデータの読み取りに多くの時間を費やすことなく、ログデータを検出できるようになります。

APM 360には、オールインワンビューの一部であるログタイプに加えて、ログチャートにログパターン が含まれており、問題の根本原因を容易に見つけることができます。次のスクリーンショットでは、ACMEサービスに関してキャプチャされた50kのログに、ACMEサービスの根本原因であるエラーに関係のない文字列パターンGET <*> HTTP 1.1が含まれていることがわかります。そのため、これらのログを無視することができ、トラブルシューティングと問題解決に関連する他のログに集中することができます。

APM 360のログパターン。トラブルシューティングに最も関連のあるログが表示されます。

APM 360は、アプリケーションのパフォーマンスと上流・下流の傾向とのリアルタイムの相関関係を表示する、統合されたフルスタックビューを提供します。この包括的な可視性により、あらゆるレベルの専門知識を持つエンジニアが、アプリケーションのさまざまなコンポーネントに問題が与える影響を理解し、トラブルシューティングを迅速化することができます。

ガイド付きワークフローとデータの推奨事項により、ブラインドスポットを排除

オブザーバビリティの実践を強化するために、APM 360では監視のギャップに対処し、常時監視へ移行するのを支援します。計測されていないサービス、不足しているアラートの設定、SLO、脆弱性を検出するプロセスをガイドし、重要事項が見逃されないようにして、これまで気づかなかった問題を特定できるようにします。

以下に、APM 360が監視のギャップを明らかにする2つのシナリオをご紹介します。

  • SLOの欠落:このスクリーンショットは、Gatewayサービスのサービスレベル目標(SLO)が存在しないことを強調しています。

APM 360のサービスレベルタイル。サービスのSLOが欠落している場合に表示されます。

  • インストゥルメンテーションのギャップ:APM 360により、Billing Service内のインフラストラクチャインストゥルメンテーションの欠如が明らかになりました。

APM 360は、インフラストラクチャインストゥルメンテーション向けにエージェントをインストールする必要がある時期を見極めます。

これらのインサイトにより、APM 360は監視状況を包括的に把握できるようになり、欠点に対処し、オブザーバビリティフレームワークを強化できます。

すべてのエンジニアを支援し、優れた能力を引き出す

New Relic APM 360は、単なるモニタリングではなく、専門知識レベルを問わず、すべてのエンジニアがAPMツールを活用して優れた能力を発揮できるようにすることを目的としています。APM 360は、サービスの健全性と主要なアプリケーション指標の全体的なビューを提供します。これにより、アプリケーションのパフォーマンスと健全性を確保し、問題を防止して、ビジネス成果に真の影響をもたらすために必要な洞察を提供します。