AIOps(エーアイオプス)とは?機能や用途、メリットを解説

近年、AIの進化・発達につれて、AIOps(エーアイオプス:Artificial Intelligence for IT Operations*)が注目されています。例えば、日々発生する大量のシステム稼動データ(テレメトリデータ)を自動的に分析し、異常を誘発するパターンを検出して、問題の特定やインシデントの回避に役立てることができます。

この記事では、現場のエンジニアにとっても多くのメリットを備えたAIOpsの概要や期待されるメリット、活用方法、現在の課題、解決策としてのNew Relic AIについて解説します。

*Gartnerによる定義。AIOpsのコンセプトや実装形式の違い/変遷により、諸説あり。

AIOpsとは、人工知能や機械学習をシステム運用に応用した仕組みのこと

AIOps(エーアイオプス)とは、人工知能(AI)の特に機械学習による分析テクノロジーを使って、アプリケーションのデータを管理・分析する手法であり、その仕組みを指します。AIOpsを活用することで、IT運用の多くの部分を自動化し、業務生産性を向上させることが期待されています。

また、AIOpsをプラットフォーム化すれば、ビッグデータと機械学習を組み合わせ、生成されたデータをスケーラブルに取り込め、そのデータを分析することで、IT運用の支援システムとして活用されます。

AIOpsプラットフォームは、対象となるシステムの状態や稼働状況などを、常にデータとして取得します。そして、過去から現在までの膨大なデータを分析し、異常が検知されれば、関連するイベントとともに分析し、適切な改善アクションを開始。それにより、継続的な改善・修正が可能になります。

AIOpsの背景と変遷

現代では、オンプレミスからクラウドへの環境の変化、ネットワークの急激な拡大のほか、分散型システムの登場によって、システムの構成が複雑になっています。このような環境の中、従来の手法でサービスレベルを高く維持するには、エンジニアへの負荷は重くなるばかりです。

そこで、IT運用の課題の多くを解決するものとして注目を集めたのが、AIOpsです。AIOpsは2016年に登場し、短い歴史の中で大きな進化を遂げています。

AIOpsの歴史
2016年頃 AIOpsの概念が登場
2017年 AIOpsが普及し、AIテクノロジーを使用して自社の運用改善することを検討
2019年 AIOpsプラットフォームへと発展
2021年 DevOpsのためのAIOpsが強化
2023年〜 生成AIを利用したAIOpsが登場

 

AIOpsの概念が登場後、アルゴリズムを使ったIT運用を推進する動きが始まり、次第に企業はAIテクノロジーをインフラチームや運用チームに活用して、自社の運用改善をする検討するようになりました。多くのベンダーがAIOpsソリューションを提供し始めたのもこの頃です。

その後、AIOpsをプラットフォーム化する流れへと発展し、2021年頃からはイベント管理領域でさらに進展を遂げ、結果としてDevOpsにも貢献するAIOpsというアプローチとなっています。

現在は、生成AIを使用したAIOpsへと進化し、従来よりも迅速でより確実な問題解決や運用管理が実現されることが期待されています。

AIOps導入によって期待されるメリット

AIOpsを導入すると、さまざまなメリットが期待されます。AIOps導入によって期待されるメリットについてご紹介しましょう。

企業の安定性とシステム運用効率の向上

AIOpsは、多くのデータを高速処理し、機械学習による予測を加えてシステム運用にあたります。人による監視と運用の負荷を軽減し、保守管理作業を適切に行える環境を整えることが可能です。

たとえIT環境が大規模化したとしても、高いシステム運用効率を発揮できれば、企業の安定性にもつながっていきます。また、安定的に稼働する信頼性の高いシステムは、企業のDX推進においても、重要な役割を果たすと期待されています。

属人化の対策

AIOpsには、人の手で行う作業の多くを代行することが期待されています。例えば、イベント監視では、ある事象に対して「静観する・一時対処・エスカレーション」といった判断が下されますが、膨大なイベントに対して、これらの判断を下していくのは、相当な作業量になります。

そこで、イベントデータを分析し、それが既知の障害であれば、AIが自動的に判断し、エスカレーションまでの処理を行うことが期待されています。AIが判断に迷うものだけを人の手で行えば、人手による作業を大きく削減できるはずです。

これは、能力値の高いスタッフに作業が集中することを避けるとともに、エンジニア不足を補う方策としても有用です。

コラボレーションの強化(DevOpsへのAIOpsの活用)

AIOpsでは、IT部門と業務部門などのリーダー同士のコラボレーションを促進してくれます。IT部門と業務部門も、開発と運用のような対立を生みやすいポジションですが、共通の目的は、「優れたデジタルサービスによって業務を効率化し、それぞれの価値を最大化する」という点です。

顧客満足度と品質の向上

社外ユーザーへのデジタルサービスにおいては、顧客満足度と品質の向上が大きなメリットといえます。システムの異常は、ページの読み込み不良や表示の遅延を引き起こします。これは、現在の高速通信に慣れたユーザーにとって、わずらわしいストレスです。そしてダウンタイムが長引いたり、頻繁にトラブルを起こしたりすると、ユーザーは離脱しかねません。

AIOpsを導入して、トラブルへの即応体制を用意し、ダウンタイムを極力短縮すれば、そうした離脱を防ぐことが可能です。顧客満足度を高く維持し、さらにサービス品質を向上させることも期待できます。

AIOpsをどう活用するか?

AIOpsは、システムの保守管理に関連していくつかの活用法があります。学習を重ねていくことで、安定性・確実性を増していく性質がさまざまな形で利用されているのです。ここでは、その一例をご紹介します。

システムパフォーマンス分析 (平常時/ピーク時の応答速度)

AIOpsの主な活用法のひとつが、システムパフォーマンス分析です。近年では、システム構造の複雑化と大規模化によって、システムパフォーマンスの測定・分析は難度を増し、従来の手法では完全な分析が難しくなってきました。

AIOpsであれば、大規模なデータをAI技法によって分析でき、複雑化・大規模化による膨大なデータにも対応できます。これによって、システムパフォーマンスを正確に評価することができます。

異常検出

秒単位で吐き出されていくデータの中から、履歴データと比べて突出している値を見つけ出し、それを問題があると思われる異常値として認識します。あらかじめ設定したKPIに異常値が発生し、それがしきい値を超えるとアラートが発せられます。

AIOpsの場合、対象となるKPIの値を追跡し続ける中で、実際の値と機械学習による予測値との差を監視し、その差が大きくなりすぎた場合に異常として検知。しきい値という絶対値だけでなく、その時々で変化するシステムの稼働状況なども合わせて、異常かどうかを判断するのです。

イベントの相関付けと分析

複雑化したシステムでは、何らかの異常が発生したとき、複数のイベントの関連性も考慮しながら、原因を探っていく必要があります。しかし、従来のツールでは、いくつものアラートが鳴り響くだけで、どこに原因があるのか、容易に特定できませんでした。

AIOpsなら、重要なイベントが種類ごとに分類され、それぞれの関連が認識されます。疑わしいイベントをたどり、根本原因にたどり着くことを容易にしてくれます。

AIOpsの仕組み

AIOpsでは、どのような仕組みでシステム運用におけるデータ管理と分析を行っているのかを簡単にご説明します。

ITシステムを運用していると、機器別、レイヤー別といったデータのサイロ化が起こりやすくなります。サイロ化したデータは共有しにくく、結果として「活かされないデータ」になってしまいかねません。こうした状況を防ぐため、まず取得したデータをすべて1ヵ所に集約します。そして、対象となるデータに対し、分析と機械学習を適用します。これにより、特定のデータパターンとそれに関連する情報を学習結果として蓄積するのです。

 

AIOpsの課題

AIOpsは機械学習を利用して、現場のエンジニアの作業負荷を大きく軽減し、同時にシステムの安定性とシステム運用効率の向上に貢献することが期待されています。しかし、まだ課題は多く残っているのが現状です。ここでは、現在のAIOpsの課題を紹介します。

アラート数の多さ

AIOpsに対して、アラート数の削減を期待したにも関わらず、逆にアラート数が増加してしまう場合があります。すでに多かったアラートが、AIOpsを導入することでさらに増え、アラートの整理や削除といった余計な作業が増えるケースも見受けられます。なぜ通知が来るのか、本当に問題があるのかといったことが不明確なため、本当に重要な問題に焦点を当てることが難しくなりがちです。

予兆検知の手段としての期待

AIOpsに対して、予兆検知の実現を期待されるケースも多く見受けられます。しかしAIOpsで障害の予兆検知が実用化されているものは、物性を持つハードウェア(サーバー、ストレージ、ネットワーク機器等)に限定されているのが実情です。昨今のシステムがクラウド、コンテナ、サーバレスの活用や外部サービスの利用(API連携)も進む中で、物性をもたないレイヤーの情報を元にしたサービス全体の予兆検知を実現することは難しく、また局所的なハードウェアの予兆検知が全体にもたらすメリットは大きくありません。

アラートの問題の切り分けが困難

AIOpsの課題は、アラートの問題の見極めに労力を要することも挙げられます。AIOpsでは、自動的にアラートをグループ化することは可能ですが、ユーザー視点で優先順位をつけ、どのアラートに、どのように対応すべきかの判断までは困難です。そのため、どのアラートが重要なのか、問題の切り分けが難しくなり、結果的に異常を検知したアラートをまとめて調査するといったアクションが発生する場合もあります。

具体的な対処策の把握が困難

現在のAIOpsでは、根本原因の特定はできても具体的な対処策の把握が難しく、復旧まで完全自動化できるわけではないことも課題となっています。仮にアプリケーションの設定変更やソースコードの修正が必要になる場合では、人の経験やスキル・ノウハウが必要となります。次にご紹介する生成AIを活用した次世代AIOpsに期待されている部分でもあります。

New Relicの生成AIオブザーバビリティアシスタント「New Relic AI」

問題を検知して原因を特定、さらに修正するといった一連のプロセスを高度化するために、業界初の生成AIオブザーバビリティアシスタントである「New Relic AI」の活用をおすすめします。

New Relic AIは、異常を見つけ原因を特定したら、自然言語で質問するだけでシステムの状態に関するインサイトが得られます。開発・運用チームだけではなくセキュリティチームやサポートチームなど、すべてのエンジニアが経験の長短にかかわらず、システム全体の監視、デバッグ、保守、改善が可能になり、オブザーバビリティを実現することができます。

New Relic AIの大きな特徴は、平易な言葉を理解し、的確な回答を返してくれること。「ショッピングカートが遅れているのはなぜ?」「直近のサーバー更新がアプリに与えた影響は?」と聞けば、平易な言葉をクエリに変換し、対応する50以上の言語で質問に答えてくれます。さらに、New Relic AIは統合開発環境(IDE)との連携(CodeStream)により修正コードを提案、適用を行うことができるため、問題発生時の原因特定から、ソースコード修正までを現代的なAIでサポートしてくれるものです。

アラート疲れの問題を解決するために、AIOpsを採用するケースは多くあります。しかし、旧来のAIOpsだけでは完全にアラート疲れをなくすことは不可能です。なぜなら、上述したように、問題ない事象を検知してしまうことや、検知はするが根本原因が全く推察できないものも多く含まれるため、アラートの切り分けは難しいからです。New Relic AIなら、その解決をサポートします。

New Relic AIは、生成AIを活用した次世代のAIOpsです。New Relic AIの登場は、その領域に大きな一歩を刻んだことは間違いないでしょう。

AIOpsが自動異常検知、対応自動化、根本原因の特定など、システム運用の安定に貢献するのに対し、New Relic AIは、それに加えて原因と改善策を提示するなど、開発領域もサポートします。

これにより、DevOps全体に貢献し、本来の目的であるお客様に迅速に価値を届けることができるようになります。

エンジニアの作業負荷を軽減し、すべての人がオブザーバビリティを活用できる。このNew Relicのミッションを体現したものが、New Relic AIなのです。

これからオブザーバビリティに取り組んでみようとお考えの方や、取り組んでいるが課題がある方は、New RelicとNew Relic AIをお試しください。