多くの DevOps および SRE のチームはAIOpsを実現するために悪戦苦闘していました。急勾配の学習曲線、実装と学習モデルのトレーニングにかかる時間、法外な価格設定、人口知能(AI)と機械学習(ML)の信頼性の欠如がAIOps実現の障害となってきました。オンコールエンジニアが障害の原因を調査すると、多くのケースで以下3つが課題になります。

  • 何が変化しているか確認するためにアラートや既存の静的ダッシュボードに依存している場合、新たな問題や未知の問題を発見するのは困難です。
  • 複数のツール間でアラートが発動してカスケード障害 (連鎖障害) が起こっている場合に、インシデントのトリアージを行い、根本的な対応方法を知るのは簡単ではありません。
  • 既存のダッシュボードを使って選別し、問題が発生した理由や、どのような影響があるか把握する必要がある場合、問題の根本原因を診断するのは難しく、時間がかかります。

要するに、エンジニアは費用のかかるウォールーム(作戦室)や憶測に基づいてインシデントをトラブルシューティングする余裕はなく、さらに困ったことにインシデントの更なる詳細情報について顧客に尋ねることもできません。しかしここで新たな New Relic Applied Intelligence の登場により、すべてが一新され、以下のようなAIOPsに求められることを簡単に実行できるようになります:

  • 異常変動を瞬時に検出: アプリケーション、サービスおよびログ間の異常を自動的に識別し、顧客に影響が出る前に潜在的な問題を防止できるようになります。
  • アラートノイズの削減: ノイズのような大量のアラートを削減し、あらゆるソースからのアラートやイベントを相関付けてグループ化し、問題の優先順位を付けるのが簡単になります。
  • 根本原因を素早く探る: すべての問題について考えられる根本原因を自動的に洞察することで、憶測での作業を減らし、問題をより迅速に解決できるようになります。
  • より素早くインシデントに対応: New Relic Applied Intelligence を ITSM ツールと統合し、相互に連携してツール全体でのインシデント管理の手間を省くことができます。

New RelicのApplied Intelligenceの機能、新機能についてご紹介します

 

瞬時に異常変動を検出

追加コスト不要で継続的かつ自動での異常検出

Applied Intelligence は、ゴールデンシグナルに基づき、すべてのアプリケーションおよびサービス間のスループット、エラー、レイテンシなどから異常を自動的に識別し、設定 / 追加コスト不要で計装されたすべてのアプリとサービスを自動的に有効化します。異常が検出されると、Slack などのコミュニケーションツールを経由して直ちに通知を送信し、迅速なトラブルシューティングと顧客が影響を受ける前に問題を阻止するために必要な、すべての異常を検知するリアルタイムフィードと分析を提供します。

Log Patterns

Applied Intelligence に機械学習を使用してログデータのパターンと表面外れ値を検出する新しい機能が追加されました。これはトラブルシューティング時間の削減に役立ちます。1回のクリックで何百万ものログメッセージを探索し、Log Patternsからログデータを自動的にクラスタ化して手動によるクエリを減らすことで、異常なパターンや、発見するのが極めて困難な問題を素早く検出できます。現在、Log Patternsはパブリックベータで、New Relic のアカウントでオンにする場合は、貴社New Relic担当者かカスタマーサクセスマネージャーまでご連絡ください。 

アラート分析

新しく統合されたランディングページは、アラート設定がどの程度機能しているかのインサイトと分析を提供します。

アラートを繰り返すミューティング ルール

New Relic のアラートに対するミューティング ルールを繰り返しスケジュールで定義することで、、スケジュールされたメンテナンス ウィンドウおよび計画されたダウンタイム期間中のアラートを制御できます。New Relic UI または API から、ミューティング ルールの頻度を日次、週次または月次で繰り返すようにスケジュール設定できます。

 

アラートノイズの削減

関係に基づいた相関性

現在では、CMDBおよび New Relic エンティティ関係からの外部リレーショナルデータに基づき、関連アラートとイベントを相関させることができます。アラートメッセージからの時間ベースのクラスタリングや、コンテキストに基づく相関性のあるアラートに加えて、関係データストア(CMDB)からのトポロジーデータを取り込んで、接続サービスから発動しているアラートの正確な相関性が実現します。これにより、発生するインシデントや、広範囲にわたる環境にどのように影響するかについて、詳しいコンテキストが得られるので、より正確かつ効果的に問題に優先順位を付けることができます。

相関性のある問題の異常

プロアクティブに検出された異常と、あらゆるソースからのアラートやイベントを相関させて、問題の全体像を描き、理解と行動の時間を短縮することができます。

相関アシスタント機能で、関連性の判断を迅速化

あるべき相関性が欠落していますか?相関させる方法は知っているが、どこから始めるとよいか迷っていますか?新しい相関アシスタント機能により、相関させる必要のあるインシデントの選択を開始するだけで、New Relic に分析させ、共通の項目を表示できます。これで、さらにアラートノイズを削減することができます。 

 

さらに、Applied Intelligenceは、あなたの設定をシミュレーションし、インシデントを相関させることでどのようにアラートのノイズを減らし、将来のコンテクストを高めることができるかをリアルタイムに示してくれます。

 

根本原因を素早く探る

すべての問題の考えられる根本原因を見る

Applied Intelligence は、すべての問題の考えられる根本原因について自動インサイト機能を実行します。未解決の問題が発生した理由、関係するデプロイメント、ならびに関連するエラーログと属性をすばやく確認して、これまでになく迅速に問題を調査する上で役に立ちます。Applied Intelligence は、取り込まれたイベントデータ内のすべての属性の配布をスキャンし、配布の大幅な変更を検索することで、考えられる原因を表面化させます。たとえば、生成されたすべてのトランザクションイベントについてスキャンを実行し、単一のユーザーがアプリに送信されたリクエストについて異常なシェアを占めるようになったか確認できます。

 

さらに、根本原因分析は自動的にエラー、トラフィック、レイテンシ、飽和状態などのゴールデンシグナルに基づいて問題を分類するため、素早く問題が起こった理由に適応できます。

 

問題の影響範囲を把握

どのエンティティ(ホスト、コンテナ、アプリケーション)が影響を受けるか、迅速かつ正確に範囲を評価し、修正する必要のある問題を特定できます。利用する環境でサービスとコンポーネントがすべての問題によってどのような影響を受けるか自動インサイト機能を実行することで、問題の原因を特定できます。

 

インシデントに迅速に対応

相関性のある問題の ServiceNow との双方向インテグレーション

PagerDuty で既存の双方向インテグレーションに追加すると、Applied Intelligence で相関性のある問題の状態を ServiceNow インシデントと双方向に同期することで、ツール間のインシデント管理にかかる手間を省くことができます。一方のプラットフォームで相関性のある問題の状態が変化すると、両方のツールで自動的に問題が更新されます。Applied Intelligence でも、VictorOps、OpsGenie、ご使用のその他のツールに Webhook を統合することをサポートしています。

 

アラート対応に適したメンバーの推奨機能

コンポーネント障害のエキスパートであるか、または以前に類似の問題を解決したことがあるため、問題に対応できるチーム内の適任のメンバーには自動的に推奨が取得されます。この拡張機能は、New Relic のアラート違反に起因する問題の対応者を提案することで、PagerDuty のインシデントデータに基づいて対応者を提案するための既存のサポートを基礎として構築されています。何よりも、この機能は完全に自動化されており、設定やモデルのトレーニングは必要ありません。New Relic がチーム内の対応者の行動から学習するため、すぐに機能します。

 

次のステップ

New Relic Applied Intelligence を利用できるお客様は全員、新しい機能に追加コスト不要でアクセスできます。

現在利用するNew Relic に AIOps 機能を追加したい、関心がある方は、New Relic アカウントの「Alerts & AI」リンクをクリックすれば、すぐに開始できます。

AIOpsに関心がある方は、New Relic Oneの無料アカウントにサインアップして、ぜひNew Relic Applied Intelligenceを試してみてください。