New Relic AIOpsでインシデント をより早く見つけて解決

ソフトウェアとシステムがますます複雑になる中で、オンコールエンジニアは、より幅広い領域、より頻繁なソフトウェアの変更、断片化されたツールにおけるより多くのデータ、より多くのアラート、そしてより多くのプレッシャーなど、これまで以上により多くのものをモニターし、それに反応することで、顧客体験やサービスレベル目標(SLO)に影響を与える可能性がある問題が発生した場合に素早く対応する必要があります。

アラート疲れは実在する問題です。ノイズの中から重要なシグナルを見分け、アラートの優先順位を付け、そしてまず最初に取るべき行動を判断するのは簡単なことではありません。AIOpsは人工知能と機械学習をオンコールチームにとって身近なものにすることで、彼らがインシデントのより素早い検出、診断、対応を行えるようにします。New Relic Oneオブザーバビリティプラットフォームの一部であるNew Relic Applied Intelligenceは、自動化された使いやすいAIOps機能を提供し、インシデントレスポンスから頭痛の種と憶測による作業を取り除きます。

異常と外れ値を即座に検出

顧客に影響が及ぶ前に、Slackなどのコミュニケーションツールに通知を受け取ることで、早期に潜在的な問題を検出できます。

  • Applied Intelligenceは、SREゴールデンシグナル(レイテンシ、エラー、トラフィックなど)に基づいてアプリケーションメトリクスとログデータを積極的にモニターし、パターンと異常を素早くお知らせします。

  • 1回のクリックで何百万ものログメッセージを探索し、ログデータを自動的にクラスタリングして手動によるクエリを減らすことで、異常なパターンや発見するのが極めて困難な問題を素早く見つけられます。

  • 異常なサービスの関連シグナルやアップストリームおよびダウンストリームサービスの動作の可視性など、それぞれの異常について詳しい分析を得ることで、トラブルシューティングを行えます。

anomaly detection example screenshot

イベント相関によってアラート疲れを軽減

アラートを自動的にグループ化して、ノイズを減らし、最も重要なものに焦点を合わせます。

  • Applied Intelligenceは、ノイズの多いアラートを抑制し、同じ核心問題に起因する関連アラートを相互に関連付けます。そのため、大量のアラートに圧倒される代わりに、行動を取るために必要な情報がまとめられた、1つの関連問題に関するアラートを受け取ることができます。

  • アラートは、時間に基づくクラスタリング、アラートのメタデータからのコンテキスト、そしてすべてのサービスがどのように相互に関係しているかに基づくトポロジーデータを使用して、自動的に相互関連付けが行われます。

  • 直感的なUIで自分自身で相関エンジンのロジックをチューニングできます。
noise reduction example screenshot

問題の根本原因を素早く特定

それぞれの問題がなぜ発生したか、どのサービスとシステムが影響を受けたか、その重要度、そして対応方法に関する実用的なインサイトを得ることができます。

  • Applied IntelligenceはSREゴールデンシグナルに基づいて自動的に問題を分類し、問題の原因となった可能性があるデプロイメントを示し、なぜ発生したのかを理解しやすくします。

  • 障害に関する影響を受けたエンティティとソフトウェアコンポーネントを見ることで、問題の範囲を即座に評価することもできます。

  • さらに、Applied Intelligenceは、それぞれの問題をチームの誰が解決するのが最適なのかを、機械学習に基づいて提案することもできます。

root cause analysis example screenshot

なぜAIOpsにNew Relic が必要な

のか?

ほとんどのAIOpsのアプローチには急こう配の学習曲線が要求され、採用して使用するために非常に多くの時間と専門知識を要します。New Relic Applied Intelligenceは違います。

  • 検出と診断までの時間が早い:設定を一切必要とせずに、即座に異常を検出し始めます。また、すぐに使える自動相関とトレーニング済みの機械学習モデルを使用して、アラート疲れを最大90%軽減します。New Relicは急こう配の学習曲線、長時間のトレーニング、そして複雑なインテグレーションから解放してくれます。

  • あらゆるソースからのアラートを相互に関連付ける:New Relicで発生したかどうかに関係なく、任意のソースからアラートとイベントを取り込みます。 Splunk、Prometheus、Grafana、Amazon CloudWatchなど、アラート生成を目的としたツールからのアラートとインシデントデータを相互に関連付けてノイズを減らし、最も重要な問題に優先順位を付けます。

  • インシデント管理ワークフローにフィットする:数回クリックするだけで、PagerDutyやServiceNowなどの既存のインシデント管理ツールと統合できます。修復ワークフローをトリガーし、インシデントの同期を維持し、ツール間でインシデントを管理する手間を省きます。

  • インシデントの相関関係の透明性を高め、信頼性を向上させる:AIOpsツールはブラックボックスではありません。New Relicはイベントがなぜ、どのように相関しているかの透明性を高め、お客様自身の相関ロジックとシステムを適切にチューニングし、ノイズを軽減する機械学習モデルを信頼できるようにします。

New Relicを無料で利用しはじめよう。

AIOpsを使用して、より素早く異常の検出、アラートノイズの軽減、そして問題の根本原因の特定を行いませんか。無料でNew Relicにサインアップして、ぜひApplied Intelligenceを試してみてください。