この Blog Post は Guy Fighel による What is AIOps の意訳です。
AIOpsが必要になる背景
DevOpsとは、ソフトウェアをより速く、より頻繁に、より高い信頼性で出荷するためにチームを改善することです。そしてそれは顧客体験やサービスレベル目標(SLO)に影響を与える可能性のある問題が発生したときに迅速に対応できることを意味しています。DevOps、SRE、およびNOCの各チームが異常を検出するためにデータの解釈に費やしたり、インシデントを手動で診断して対応したりすることは、SLO、企業の評判、および最終結果に大きな影響を与えることは疑いようがありません。
ソフトウェアチームがクラウドネイティブなテクノロジーを採用するにつれて、監視対象と対応するべき対象が増え続けています。ソフトウェアの変更が発生し、断片化されたツールで送信される運用データが増え、ダッシュボードが増え、アラートが増えました。データ量が増えてくると、問題を理解して解決するのに必要な時間も増えてきます。そのため多くの運用チームは、事後対応で多くの時間を費やし、インシデントを絶えず消化するよう活動していますが、サービスの停止やパフォーマンスの問題を引き起こす前に問題を特定できるプロセスを実装する時間を確保することがいないのが大多数かと思われます。
AIOpsの出現
ここ数年で AIと機械学習(ML)をオンコールチームの手に委ねて、より多くのインシデントを防ぎ、より迅速に対応できるようにする新しいカテゴリのテクノロジーが登場しました。Gartnerはこの分野を説明するために「AIOps」という用語を作り出しました。Gartnerが述べているように、AIOpsはAIと機械学習を使用して、ソフトウェアシステムによって生成されたデータを分析し、起こりうる問題を予測、根本原因を特定して自動化を推進して修正を行います。
"AIOpsは、「ビッグデータと機械学習機能を組み合わせて、デジタル変換に応じてITによって生成されるデータの量、種類、速度が増え続けることを分析します。AIOpsプラットフォームは、異常検出、イベント相関、根本原因分析(RCA)などの広範なIT運用プロセスを強化し、監視、サービス管理、自動化タスクを改善します。分析作業の目標はパターンの発見です。パターンとは、可能性のあるインシデントと新たな動作を予測するために使用されるデータに対して、自然に発生するクラスターまたはグループです。これらのパターンは、現在のシステムの問題の根本原因を特定し、それらを解決するために自動化を推進するために使用されます。"
— Gartner Research、AIOpsプラットフォーム市場ガイド
AIOpsはモニタリングに対してどのような意味を持つのでしょうか?New Relicでは、AIOps機能が可観測性の重要な要件であると捉え、問題のトラブルシューティングと対応を迅速に行うことができるようになるだろうと考えています。すべてのテレメトリデータをリアルタイムに1か所で確認できることにより、チームは問題をより迅速に特定し、問題の原因だけでなく理由を理解し、コンテキストを取得して、そのデータを迅速に分析し、積極的にアクションを実行できます。AIOpsは、テレメトリと共にインシデント情報のインテリジェントフィードを提供し、AIとMLを適用してそのデータを分析およびアクションを実行することにより、モニタリングから得られる価値を高めます。
AIOpsの使用例
DevOps、SRE、およびオンコールチームがAIOpsを使用する主な方法は4つあります。
1.プロアクティブな異常検出
インシデント対応プロセスの最初のステップは、問題が実稼働環境に影響を与えたり、カスタマーエクスペリエンスに影響を与える前にソフトウェアの潜在的な問題を検出することです。AIOpsツールは、環境内の異常を自動的に検出し、監視ソリューションへの通知をトリガーします。また、Slackなどチームが協力して作業を行う他のツールもトリガーします。
2.イベント相関とノイズ低減
インシデント対応プロセスの次のステップは診断です。AIOpsツールは、関連するアラート、イベント、インシデントを関連付け、スタック内の履歴データや他のツールのコンテキストでそれらを強化することにより、チームが最も重要な問題に優先順位を付けて集中するのに役立ちます。最も高度なツールは、機械生成(つまり、時間ベースのクラスタリング、類似性アルゴリズム、およびその他のMLモデル)と人間生成の決定の両方を利用して相関ロジックを強化し、自動フラッピング検出を可能にして、ノイズの多い優先度の低いアラートを抑制することです。
AIOpsツールは、4つのSREゴールデンシグナル ( Latency, Traffic, Errors and Saturation)に基づいてインシデントを分類することで貴重なコンテキストも提供するため、問題の根本原因をより簡単に診断し、解決方法を決定できます。
3.インテリジェントなアラートとエスカレーション
AIOpsツールは、異常を検出し、インシデントを診断するためのインテリジェンスを提供することに加えて、インシデントデータを自動的にルーティングし、対応するのに最適な個人またはチームにルーティングできます。特に、セルフサービスを採用している分散型の分散チームの場合、間違った人に送信されるノイズの多いアラートの数を減らし、重要なインシデントデータを適切な人にルーティングするのにかかる時間を短縮することにより労力を削減します。
AIOpsツールはMLモデルを実行して、インシデント管理および監視ツールからのデータを評価し、特定の問題をより迅速に解決できる個人またはチームを提案します。過去に似たものを既に見ているか、特定のコンポーネントの専門家であるなどです。
4.自動化されたインシデント対応
インシデント対応プロセスの最後の最も重要なステップは、実際に問題を修正することです。これには発生したインシデントを解決し、解決までの平均時間を短縮するためのワークフローと自動化が含まれます。
オンコールチームが問題の検出、診断、および修正の間のギャップを埋めようとするにつれて、自動修復機能を通じてこれらの課題を解決するためにAIOpsの範囲が拡大しています。
New Relicがどのように役立つか
運用システムの運用の複雑さが増すにつれて、ソフトウェアチームはインシデントを解決するためのより迅速で簡単な方法を必要としています。問題をより迅速に発見して修正できるように、既存のインシデント管理チームとワークフローを強化する支援と自動化が必要です。また、お客様は、簡単にオンボード、学習、および使用できるAIOpsソリューションを探しています。そのため、常に忙しいDevOpsとSREチームが問題をより迅速に発見して解決するのに役立つAIOpsソリューションであるNew Relic AIを発表しました。New Relic AIは、チームの労力を削減し、受動的な「消火」モードから抜け出し、優れたソフトウェアの構築と実行という創造的でやりがいのある刺激的な作業に戻ることができます。
インシデント管理ツール単独またはAIOpsへの他のアプローチとは異なり、New Relic AIは生のモニタリングデータへのアクセスを利用してMLモデルを活性化し、インテリジェントでコンテキストが豊富なインシデント対応ワークフローを可能にします。既に使用しているインシデント管理ツールと緊密に統合することにより、既存のインシデント対応プロセスとワークフローにインテリジェンスをもたらし、DevOpsプロセスを再発明することなく、最速の検出時間とノイズ削減を実現します。
AIOpsソリューションを使用して、チームがインシデントをより迅速に検出、診断、解決しようとしている場合は、New Relic にぜひお問い合わせください。
本ブログに掲載されている見解は著者に所属するものであり、必ずしも New Relic 株式会社の公式見解であるわけではありません。また、本ブログには、外部サイトにアクセスするリンクが含まれる場合があります。それらリンク先の内容について、New Relic がいかなる保証も提供することはありません。