オブザーバビリティにおけるAI：システム監視とパフォーマンスの進化

本記事はAI in observability: Advancing system monitoring and performanceの抄訳記事です。

最新のIT環境は複雑化が進んでおり、システムのパフォーマンスと信頼性を維持することがこれまで以上に困難になっています。従来の監視ツールは比較的単純な状況では効果的ですが、今日の分散型およびAI主導型システムにおいては、管理に必要となる詳細なインサイトを得るには不十分な場合が珍しくありません。そこで役立つのがオブザーバビリティで、システムの動作を理解してパフォーマンスを向上させるためのより包括的なアプローチを実現します。

本質的に、オブザーバビリティとは、アプリケーションとインフラストラクチャから生成されるメトリクス、イベント、ログ、トレース（MELT）といったテレメトリーデータから実用的なインサイトを得ることを指します。データの量と複雑さが増すにつれて、手動による分析は非現実的となります。この分析を実現させるものとして新たに注目されているのがAIであり、システム監視の強化、潜在的な問題の予測、パフォーマンスの最適化により、オブザーバビリティに対する組織の取り組みを変革します。さらに進化が進むと、AIを中核としたインテリジェントなオブザーバビリティが実現され、複雑なIT環境を理解しプロアクティブに管理できるようになることも夢ではありません。

AI主導型システムにおけるオブザーバビリティの理解

オブザーバビリティが確保されていると、システムの健全性やパフォーマンスの詳細な情報が得られます。これには、MELTなどのテレメトリーデータを収集して分析し、システム内で起こっていることを把握するだけでなく、なぜそれが起こっているかを理解することが含まれます。リアルタイムで問題を特定して解決しさまざまな条件下でシステムが最適に動作するようにするためには、このようなかなり詳細なインサイトが不可欠です。

AI主導型システムではオブザーバビリティが従来以上に複雑化します。AI主導型システムには、複雑なデータパイプライン、モデルのトレーニングと推論のプロセス、リアルタイムデータに基づく動的なスケーリングなどが必要になることが珍しくありません。この文脈におけるオブザーバビリティは、従来のMELTデータ以外に、AIコンポーネントの特定の動作やパフォーマンス特性も考慮する必要があります。たとえば、実運用中の機械学習（ML）モデルのパフォーマンスを監視するには、推論のレイテンシ、モデルの精度、推論中のリソース使用率などのメトリクスを追跡する必要があります。ログには、データ入力、モデルのバージョン管理、推論プロセス中に発生した例外に関する詳細などが含まれます。トレースは、データがモデルに到達する前にさまざまな前処理手順をどのように通過するか、またモデルの出力がダウンストリームのサービスでどのように利用されるかを理解するうえで非常に重要です。ただし、入力データの変化により時間が経つにしたがってモデルの精度が低下するモデルドリフトや、これらのモデルにデータを供給するデータパイプラインのパフォーマンスといった潜在的な問題にも注意する必要があります。モデルの精度とこれらのパイプラインの効率を継続的に監視することで、AIシステムの信頼性とパフォーマンスが維持され、問題が発生した場合にチームが積極的に対策を取ることができます。

New Relicのようなツールは、高度なオブザーバビリティ機能を提供します。これはモデルドリフトやデータパイプラインの非効率性などの問題を検出して対応するのに役立ち、それに対処する上で重要な役割を果たします。下の画像は、New RelicのMLモデルのモデルドリフトとデータドリフトを示しています。

インテリジェントなオブザーバビリティ：AIがオブザーバビリティに革命を起こすしくみ

AIの進歩が時代の大きな流れとなっている中で、AIが新しいアプリケーションやシステムの推進力となっているだけでなく、それらのシステムの管理や監視の方法に変革をもたらす要素にもなっていることは明らかです。現代のIT環境、特にAIが組み込まれた環境はあまりにも複雑であり、従来のオブザーバビリティにおける手法だけでは追いつくことができていません。そこで、AI自体がソリューションとなり、今日のテクノロジー環境におけるオブザーバビリティのアプローチ、実装、および活用方法に革命をもたらします。AIをオブザーバビリティプラットフォーム自体に組み込むことで、複雑化を続けるデジタル環境に対応できるほどのインテリジェンスが得られます。

自動異常検出

AIが膨大な量のテレメトリーデータを自動的に分析し、通常の動作からの逸脱を識別するため、異常を検出する能力が大幅に向上します。従来システムの異常検出は、CPU使用率などのメトリクスを追跡し、事前定義された閾値を超えたときにアラートをトリガーするといったしくみになっています。AIは、動的な環境における「正常」な動作がどのようなものかを学習し、閾値での判断では見逃される可能性のある微妙な問題を検出するという点で、さらに一歩進んでいます。AIであれば、例えばクラウドインフラストラクチャにおいて、標準の閾値を超えていない場合でも、潜在的なスケーリングの問題やセキュリティ侵害を示す可能性のあるリソース消費の異常な急増を識別できます。同様に、AIがウェブアプリケーションでのユーザーの行動を監視し、ユーザー体験の低下を示す可能性のある微妙な変化が現れた場合、問題が大きくなる前に検出できます。このような自動化が平均検出時間（MTTD）の大幅短縮に大きく貢献し、障害対応までのレスポンスタイムが短縮され、システムのダウンタイムが最小限に抑えられます。

予防監視のための予測分析

AIは現在の問題を検出するだけでなく、将来の問題を予測する上でも重要な役割を果たします。機械学習を活用した予測分析では、テレメトリーデータの傾向を分析して、潜在的なシステム障害やパフォーマンスのボトルネックを発生前に予測できます。例えば一般的なサーバー環境では、AIは現在の使用傾向に基づいてディスク容量が不足する可能性を予測できるため、チームはダウンタイムが発生する前に問題に対処できます。AI主導型システムでは、予測分析によって、データパターンの変化に基づいてMLモデルの再トレーニングが必要になる時期を予測したり、使用ピーク時のネットワークの混雑を予測したりすることができます。これらの問題を予測することで、チームはリソースのスケーリングや設定の調整などの予防措置を講じ、継続的なシステムのパフォーマンスと信頼性を確保できます。

根本原因の分析

問題が発生した場合、特に相互に依存するコンポーネントが多数ある分散システムでは、その根本原因を特定するプロセスが複雑になり長い時間を要することがあります。ここでは、販売イベント中にeコマースアプリケーションのパフォーマンスが低下した場合について考えてみましょう。さまざまなサービスで複数のアラートがトリガーされます。ウェブアプリケーションではレイテンシの増加が示され、データベースではクエリ時間の増加が報告され、支払いゲートウェイではタイムアウトがログに多数記録されます。従来の設定ではエンジニアが各サービスのログ、メトリクス、トレースを手動で調べて問題を特定していましたが、これには時間がかかり、ミスも発生しがちでした。

インテリジェントなオブザーバビリティツールは、複数のソースからのデータを自動的に分析して相関関係を見出すAI主導型データ相関技術を備えていて、このプロセスの強化に貢献し、最も可能性が高いと考えられる根本原因を明確化するうえで役立ちます。一つ例に挙げると、直近でレイテンシが急増したことは、最近のデプロイメントによってデータベースクエリのパターンが変化し、負荷とタイムアウトの増加につながったことを示している可能性があります。オブザーバビリティツールが関連するアラートを自動的に結びつけ、システムの動作が大きく変化したところを識別するため、インフラストラクチャ、アプリケーションのロジック、または外部との依存関係に関連する根本原因を迅速に特定して、平均解決時間（MTTR）を短縮することができます。

アラートの関連付けとノイズの低減

複雑なIT環境では、問題が1つ発生するだけでさまざまなコンポーネントにわたって複数のアラートがトリガーされ、通知が大量に発生してその中に重要な信号が埋もれてしまう「アラート疲れ」につながる可能性があります。例として、アクセスが集中しピークに達したマイクロサービスベースのアプリケーションを使用しているシナリオについて考えます。CPU使用率の異常、メモリ消費量の増加、データベースのエラー率の増加といった複数のアラートが、さまざまなサービスでトリガーされるようになります。これらのアラートが単独で発生した場合はそれぞれに問題が潜んでいる可能性がありますが、同時に発生した場合は、リクエストが急増してデータベースにボトルネックが発生したなど、単一の根本原因から発生した症状である可能性が高いと考えれます。

アラート相関技術を使用すると、これらの個々のアラートを1つのインシデントにグループ化することができ、各症状を個別の問題として扱うのではなく、より大きな視点から問題を捉えることができます。最先端のオブザーバビリティ手法では、共有インフラストラクチャコンポーネント、タイミング、または類似したエラーメッセージといったデータ内のパターンに基づいてアラートが自動的に関連付けられるため、このプロセスが強化されます。このアプローチでは、アラートのノイズが削減されるだけでなく、システム内で何が起こっているかについて従来以上に一貫して把握することができるため、MTTRが短縮されます。

以下の画像は、New Relicの複数拠点間で相関する監視障害インシデントを示しています。

高度なオブザーバビリティを実現するNew Relic AI機能の活用

AIがオブザーバビリティを変革し続ける中、New Relicは、組織が複雑なシステムの管理や監視をより適切に実施できるように、複数の高度なAI主導型機能をプラットフォームに統合しました。

New Relic AI Monitoring

New Relic AI Monitoringは、大規模言語モデル（LLM）や同様の高度なモデルを使用するAIアプリケーションに向けた特別な設計となっています。このツールでは、インフラストラクチャやデータ処理からモデル自体に至るまで、AIスタック全体にわたる包括的なオブザーバビリティが得られます。エンジニアは、LLMのレスポンスタイム、トークンの使用状況、エラー率などのメトリクスを監視して、これらのモデルが最適な状態で動作することを確認できます。たとえば、エンジニアがAI Monitoringを使用すると、LLMによるリクエスト処理の効率の追跡、パフォーマンスのボトルネックの特定、およびこれらのモデルの使用によるコストの影響の管理が可能になります。

下の画像は、New RelicによるAIチャットボットトランザクションのトレースビュー全体を示しています。

New Relic AI

New Relic AIはオブザーバビリティ提供を目的とした初の生成AIアシスタントで、オブザーバビリティをより効率的かつ手軽に使えるようにするために設計されています。その際立った機能の1つとして、日常的な言葉による問いかけをNew Relicクエリ言語（NRQL）に変換する機能があります。これにより、ユーザーが複雑なクエリを記述することなくデータからインサイトを取得することでき、実用的なインサイトを得るプロセスが効率化されます。たとえば、ユーザーがAIに「過去24時間の平均応答時間を表示」と指示すると、これをシステムが適切なNRQLクエリに自動的に変換し、数秒で結果を表示します。また、エラーの簡単な説明を表示し、ユーザーによる操作をシミュレートするためのSynthetic monitorのチェックを自動化し、パフォーマンスを最適化するためのコンテキスト固有の推奨事項を提示します。たとえば、New Relic AIに「何に注目すべきか」と尋ねると、問題の概要と実際的な説明が提示され、トラブルシューティングが迅速化されます。さらに、AIはSynthetic Monitorのチェックの生成にも役立ち、実際のユーザー行動に沿った形で監視を実施できるようになります。これらの機能により、チームが問題をより迅速に解決し、システムを能動的に管理できるようになります。

このビデオでは、New Relic AIを使用して、普段使うような言葉を使用して大量のテレメトリーデータからインサイトを得る方法を説明します。

機械学習の運用（MLOps）

New RelicのMLOpsは、本番環境におけるカスタム機械学習モデルのライフサイクル管理に重点を置いています。この機能では、モデルのパフォーマンスの追跡、データドリフトの検出、実際の状況でモデルが期待どおりに機能しているかどうかの確認に役立つ監視および診断ツールを使用することができます。さらに、データチームがDevOpsチームと直接連携できるようになり、開発、テスト、運用監視を連続的につなぐプロセスを作成できます。

IT運用のための人工知能（AIOps）

AIOpsツールはアラートノイズの管理や削減にMLを活用するもので、互いに関連のあるインシデントを自動的に関連付け、チームが重要度の高い問題に集中できるようにします。これらのツールにインシデント管理が強化されます。重大な問題を示す可能性が最も高いアラートを優先的に処理することができるので、チームの対応が効率化され、ダウンタイムを短縮することが可能になります。テレメトリーデータが大量に発生する環境では、AIOpsがノイズを排除することができるので、エンジニアはインシデントの根本原因を迅速に特定して対処できるようになります。

New Relicが備えるこれらのAI導型機能は、今日の複雑なIT環境を組織が効果的に管理できるようにするもので、現代の環境でオブザーバビリティを実践するためには不可欠です。これらのツールを組み込むことで、チームがシステムを監視、診断、最適化する能力が強化され、スケーリングしてもシステムの堅牢性と信頼性を維持できるようになります。

まとめ

AIは進化を続けており、オブザーバビリティの実践を変革するうえでその重要性はさらに大きくなっています。従来の監視方法は、特に分散システムやAIアプリケーションを利用し複雑化・大規模化している現代のIT環境を管理するには、もはや不十分です。また、AIを活用すると、テレメトリーデータからより深いインサイトを得ることができるというメリットもあります。

AI主導型ツールであるNew Relicのインテリジェントなオブザーバビリティスイート(AIOps、New Relic AI、AI Monitoringなど)を使用すると、複雑なAIや最新のインフラストラクチャを組織が効率的に管理し、ハイパフォーマンスなシステムを維持することができます。これらの高度な機能を統合することで、チームはシステムの信頼性、拡張性、パフォーマンス最適化を確実に行うことができます。

次のステップ

New Relicインテリジェントオブザーバビリティをまだ使用していない方はぜひNew Relicの無料登録をご利用ください。システムの堅牢性と効率性を維持するのに最新のオブザーバビリティツールがどのように役立つかをご確認いただけます。

AI Monitoringを使用してAIアプリケーションを監視および最適化する方法（特にLLMを使用するもの）について学習します。
New Relic AIが生成AIをオブザーバビリティデータのトラブルシューティングと管理にどのように利用するか、詳細に説明します。

By Yoshikazu Okawa, Technical Account Manager

ゲーム会社や事業会社、MSPにてインフラの設計・構築・運用及び支援に従事し、2022年9月より現職。現在は、New Relicにてテクニカルアカウントマネージャーを務める。得意分野はB2Cサービスインフラ、パブリッククラウドなど。Google Cloud Partner Top Engineer '2021。

本ブログに掲載されている見解は著者に所属するものであり、必ずしも New Relic 株式会社の公式見解であるわけではありません。また、本ブログには、外部サイトにアクセスするリンクが含まれる場合があります。それらリンク先の内容について、New Relic がいかなる保証も提供することはありません。

780+ インテグレーションを導入し、スタック監視を無料で開始しましょう

詳細を見る

In this article