New Relic AIを使用したプロアクティブなパフォーマンス監視

本記事はProactive performance monitoring using New Relic AI の抄訳記事です。

複雑なテクノロジースタックを管理し、高い信頼性を確保することは、現代のエンジニアリングチームにとって重要な課題です。問題が発生してから対応すると、余分なダウンタイムが発生し、顧客が不満を抱くことになります。その解決策はプロアクティブなパフォーマンス監視です。New Relic AIでは、AIを活用して問題が発生する前に予測、傾向の特定、問題の迅速な解決を行うことで、リアクティブな監視からプロアクティブな監視に移行できます。

New Relic AIは、主要な大規模言語モデル（LLM）とNew Relicのデータプラットフォームを組み合わせてシステムとNew Relic プラットフォーム自体の両方を理解し、自然言語を使用して大量のテレメトリーデータからより深い洞察を提供する生成AIオブザーバビリティアシスタントです。

このブログ記事では、New Relic AIを使用して次のことを行う方法を説明します。

パフォーマンスの傾向を分析
異常を特定
監視ギャップを検出
外形監視を設定

NRAIを始める

現在はプレビュー段階ですが、NRAIは簡単にアクティブ化できます。開始するには、任意のページの右上隅にあるAsk AIをクリックし、Get startedをクリックします。

生成AI固有の規約を確認するように求められます。これまでにNew Relicプレリリースポリシーに同意していない場合は、ここで確認するように求められます。Acceptをクリックします。完了すると、チャットウィンドウが表示されます。

AIアシスタントと対話して、システムの監視とトラブルシューティングを行うことができます。

パフォーマンスの傾向を分析

プロアクティブな監視は、過去のサービスパフォーマンスを把握することから始めます。時系列的な傾向の変化を分析することで、大きな問題になる前に注意が必要な領域を見つけることができます。

まず、特定の期間における特定のサービスパフォーマンスを要約するよう、NRAIに指定できます。

How has the catalogue-service been performing over the last hour?
(過去1時間のcatalogue-serviceのパフォーマンスはどうでしたか？)

NRAIは、トランザクション、平均処理時間、エラー率などの関連するパフォーマンスメトリクスを取得し、以下の例に示すように、サービスの健全性の概要を簡単に提供します。

上記の例では、NRAIはトランザクション、平均処理時間、エラー率などのカタログサービスのパフォーマンスを示しています。また、NRAIにエラー率などの特定のメトリクスに焦点を当てるように指定することもできます。

Were there any errors in this service?
(このサービスにエラーはありましたか？)

NRAIはコンテキストを維持することができ、過去数時間のcatalogue-serviceのトランザクションエラーを取得したいことを理解しています。自然言語をNew Relicクエリ言語（NRQL）クエリに変換し、サービスにエラーがあったかどうかを示します。

さらに、これらのエラーの詳細な説明を求めたり、根本的な原因を調査したりすることもできます。

ここで、NRAIは、catalogue-service内のすべてのエラーリストと、関連するすべての属性を表示します。また、各エラーの詳細をさらに確認することができます。重要なのは、正しい質問をすることだけです。

注目すべきもう1つのポイントは、パフォーマンス分析の一部として表示されるメトリクスは、分析対象の特定のサービスに応じて異なるということです。以下にその例を挙げます。

How is the Frontend service performing over the past 24 hours?
(過去24時間のフロントエンドサービスのパフォーマンスはどうでしたか？)

フロントエンドサービスについて質問しているので、NRAIはブラウザアプリケーションに関連するメトリクスを取得します。

上記の例では、NRAIは過去24時間のフロントエンドの応答時間、First Contentful Pant、First Paintの各平均を取得します。

長期的な安定性を確保するために、さまざまな期間にわたるパフォーマンスを比較できます。これは、将来の問題を示唆する傾向を明らかにするのに役立ちます。

How is the Frontend service performing over the past 24 hours?
(過去24時間のフロントエンドサービスのパフォーマンスを、過去1週間と比べてどうですか？)

これにより、生成AIアシスタントは、パフォーマンスが徐々に低下しているかどうか、またはスパイクが頻繁に発生しているかどうか（より深刻な問題を示唆している可能性がある）を確認するのに役立ちます。

この例では、フロントエンドの全体で平均所要時間が2%改善を確認できます。

異常を特定

パフォーマンスの傾向を分析したら、プロアクティブな監視の次のステップは、異常、つまり問題の兆候となるいつもと異なるパターンや動作を特定することです。NRAIに最近の異常を表示するよう指定するだけです。まずは、New Relic AIに主要なメトリクスにおける異常なアクティビティやスパイク、エラー率やレスポンスタイム、あるいはスタック内の異常の概要を検出するように依頼することから始められます。

Are there any anomalies in any of my services over the last 24 hours?
(過去24時間以内にいずれかのサービスに異常はありましたか？)

NRAIはスタックをスキャンした後、突然のスパイク、I/O操作の減少、エラー率、その他の不規則なパターンなど、サービス内の異常を報告します。

上記の例では、New Relic AIは2つの異常を検出しました。

読み取りおよび書き込み操作の減少
書き込み時間の増加

また、異常に関するコンテキストを指定し、関連パフォーマンスの問題を解決するための実行可能な手順を示します。

外形監視を設定

外形監視は、アプリケーションとユーザーのインタラクションをシミュレートし、実際のユーザーに影響を与える前に潜在的な問題を検出します。たとえば、NRAIは、サービスの可用性を定期的にテストする外形監視の設定をお手伝いします。これにより、パフォーマンスの低下が早期検出されます。

まず、New Relic AIに外形監視の推奨事項を尋ねることができます。

上記の例では、NRAIはスタックをスキャンして異常のあるエンティティを識別し、それらに外形監視を設定することを提案します。デフォルトでは、NRAIはサービスとアプリケーションのpingチェックを作成します。スクリプト化されたブラウザやAPIテストなど、より高度な外形監視を設定するためのガイドにもなります。これらのタイプのモニターを使用すると、ユーザーのインタラクションやAPIコールをシミュレートして、アプリケーションがアクセス可能であるだけでなく、正しく機能していることを確認できます。

外形監視を設定することで、実際のユーザーに影響が及ぶ前に問題を検出し、サービスを使用するすべてのユーザーにスムーズなエクスペリエンスを提供できます。

監視ギャップを検出

プロアクティブな監視の重要な部分は、スタック全体がアラートと監視ツールによってカバーされていることを確認することです。重要な領域がカバーされていない場合、突然問題が発生する恐れがあります。監視されていないサービスを特定するには、まずアシスタントにスタック内のギャップを見つけるように依頼します。または、より具体的に、現在アラートが設定されていないスタック内の領域を指定することもできます。

Show me all of my entities that are not covered by an alert.
(アラートが適用されていないエンティティをすべて表示してください。)

または、NRAIにスタック内のカバレッジギャップを見つけるよう指定することもできます。

Can you find the coverage gap in my stack
(スタックのカバレッジギャップを見つけることができますか？)

上記のプロンプトにより、アラートでカバーしていないエンティティのリストが生成され、現在進行中の問題をチームに通知する、さらに注意を払う必要があるシステム箇所がわかります。

例に示されているように、重点的に検索したいアプリケーションの種類を指定して検索を絞り込むこともできます。

上記の例は、アラート条件でカバーされていないアプリケーションパフォーマンスモニタリング（APM）サービスのリストを示しています。これらのギャップを特定したら、まず最も重要なサービスに対するアラートの設定を優先できます。さらに一歩進んで、過去のインシデントに基づいてどのアラートを設定すべきかの推奨事項をNew Relic AIに問い合わせることもできます。

これにより、最も重要なサービスが常に監視され、重大な問題を見過ごすことがなくなります。

まとめ

New Relic AIは、スタックの監視方法を一新し、問題が深刻化する前に検出することを容易にします。AI搭載のアシスタント機能を使用して、アラート、傾向分析、エラー調査、およびSyntheticの設定を行うことで、監視をリアクティブ型からプロアクティブ型に変え、より円滑な運用とインシデントの減少を実現できます。