ソフトウェアとシステムがますます複雑になる中で、オンコールエンジニアは、より幅広い領域、より頻繁なソフトウェアの変更、断片化されたツールにおけるより多くのデータ、より多くのアラート、そしてより多くのプレッシャーなど、これまで以上により多くのものをモニターし、それに反応することで、顧客体験やサービスレベル目標(SLO)に影響を与える可能性がある問題が発生した場合に素早く対応する必要があります。
アラート疲れは実在する問題です。ノイズの中から重要なシグナルを見分け、アラートの優先順位を付け、そしてまず最初に取るべき行動を判断するのは簡単なことではありません。AIOpsは人工知能と機械学習をオンコールチームにとって身近なものにすることで、彼らがインシデントのより素早い検出、診断、対応を行えるようにします。New Relic Oneオブザーバビリティプラットフォームの一部であるNew Relic Applied Intelligenceは、自動化された使いやすいAIOps機能を提供し、インシデントレスポンスから頭痛の種と憶測による作業を取り除きます。
異常と外れ値を即座に検出
顧客に影響が及ぶ前に、Slackなどのコミュニケーションツールに通知を受け取ることで、早期に潜在的な問題を検出できます。
Applied Intelligenceは、SREゴールデンシグナル(レイテンシ、エラー、トラフィックなど)に基づいてアプリケーションメトリクスとログデータを積極的にモニターし、パターンと異常を素早くお知らせします。
1回のクリックで何百万ものログメッセージを探索し、ログデータを自動的にクラスタリングして手動によるクエリを減らすことで、異常なパターンや発見するのが極めて困難な問題を素早く見つけられます。
異常なサービスの関連シグナルやアップストリームおよびダウンストリームサービスの動作の可視性など、それぞれの異常について詳しい分析を得ることで、トラブルシューティングを行えます。