アノマリ検知とは?しきい値検知との違いや課題、高度化の方法を解説

システムの開発・運用では、監視しきい値を設定しているにもかかわらず異常を見逃したり、不要なアラートが多発して対応に追われたりするケースは少なくありません。
システムが複雑化し、トラフィックや負荷が常に変動する環境では、固定のしきい値だけで異常を判断することは難しくなっています。
こうした課題を解決する手段として注目されているのが「アノマリ検知」です。
通常時の傾向をもとに異常を捉えることで、従来の監視では見つけにくかった問題の早期発見につながります。
ここでは、アノマリ検知の仕組みや従来のしきい値検知との違い、メリット、運用課題に加え、高度化の方法について解説します。

アノマリ検知とは?

アノマリ検知とは、監視・運用の文脈において、システムやサービスの挙動が通常の状態から逸脱していないかを捉えるための技術です。アノマリ(anomaly)とは、システムの通常状態から逸脱した状態や兆候を指します。

アノマリ検知は、通常時の挙動や傾向を基準に異常を検知する点が特徴です。過去のデータのばらつき(標準偏差)や、日次・週次・季節要因といった周期性も考慮し、「普段の変動パターン」からのズレを評価します。また、通常の変動幅に収まる値は正常と見なし、その範囲を明らかに逸脱した場合に異常として検知することが可能です。
近年は、統計的手法や機械学習の活用により、アノマリ検知の自動化が進んでいます。

図版アノマリ検知

 

監視・運用におけるアノマリ検知というと、上記のような時系列データの傾向から逸脱を検知する手法を指すと捉えられがちです。しかし、アノマリ検知には複数のアプローチが存在します。詳細は後の項目で解説します。

従来のしきい値検知とアノマリ検知の違い

従来のしきい値検知とアノマリ検知は、異常と判断する基準が異なります。
従来のしきい値検知では、CPU使用率やレスポンスタイムなどに対し、あらかじめ定義した固定値やルールで判定する手法が中心でした。スペック上限やコスト制約など、明確な上限値を超えてはならない要件がある場合は、従来のしきい値検知が適しているといえます。
明確な基準を設定できるため、判定結果を理解・説明しやすい一方、境界付近でのフラッピングや、画一的な検知が起きやすいといった課題があります。

一方、アノマリ検知は、正常な状態の傾向からの逸脱に着目するのが特徴です。そのため、環境変化や負荷変動に強く、「通常とは異なる」状態を捉えやすくなります。
ただし、「なぜ異常と判断されたのか」を理解・説明することが難しい側面があります。また、アクセス数や負荷が徐々に増加するような通常のトレンド変化は、アノマリ検知では異常と判定されないケースも少なくありません。

そのため、実運用では、両者を要件に応じて使い分け、ツールによる分析や支援を活用することが重要です。

アノマリ検知の代表的なアプローチ

アノマリ検知には、複数のアプローチがありますが、ここでは「時系列に基づくアノマリ検知」と「分布に基づくアノマリ検知(外れ値検出)」という2つの代表的なアプローチについて説明します。
時系列は時間方向の逸脱、分布は同時点における相対的な逸脱を検知するアプローチです。これらを組み合わせることで、時間的な変化と分布上の逸脱の双方を捉えやすくなり、より実態に即したアノマリ検知が可能になります。

<アノマリ検知の代表的なアプローチ>
・時系列に基づくアノマリ検知
・分布に基づくアノマリ検知(外れ値検出)

時系列に基づくアノマリ検知

時系列に基づくアノマリ検知は、各エンティティの過去の傾向と比較し、通常とは異なる変化を検出するアプローチです。通常時のデータから正常な挙動のベースラインを算出し、リアルタイムデータと比較することで、そのベースラインからの逸脱を検知する仕組みです。
具体的には、レスポンスタイムの急上昇やトラフィックの急減、エラー率の急増といった変化や、通常の傾向からの継続的な逸脱が異常として検知されます。
メトリクスの履歴をもとに「通常とは異なる」パターンを検知する手段として、多くの監視・運用の現場で活用されています。

分布に基づくアノマリ検知(外れ値検出)

分布に基づくアノマリ検知(外れ値検出)は、同一時点における複数エンティティのデータ分布に着目し、そこから挙動が大きく外れたエンティティを特定するアプローチです。
外れ値の捉え方に応じて、主に下記のような手法があります。

<分布に基づくアノマリ検知(外れ値検出)の手法>
・全体分布に対する外れ値:全体の分布から大きく逸脱した値を異常とみなす手法
・グループ内の外れ値:同一条件下の複数対象の中で、特定の1つだけ挙動が異なる場合に異常とみなす手法

特に、「グループ内の外れ値」は、同一条件下での相対的な異常を捉えることができ、時系列の変化だけでは見逃されがちな問題の検出に有効です。
例えば、同じ時間帯の複数サーバーの中で特定の1台だけレスポンスタイムが長い場合など、全体の中で相対的に異なる挙動を示すケースが該当します。

アノマリ検知のメリット

アノマリ検知にはどのようなメリットがあるのでしょうか。詳しく見ていきましょう。
 

<アノマリ検知のメリット>
・明確にしきい値を決めにくい指標にもアラートを設定できる
・運用負荷を軽減できる

明確にしきい値を決めにくい指標にもアラートを設定できる

アノマリ検知は、しきい値を事前に決めにくい指標に対しても、アラートを設定できる点がメリットです。
従来のしきい値検知では、「CPU使用率が80%を超えたら異常」といったように明確な基準を設定する必要があります。しかし、実際のシステムでは時間帯や負荷状況によって正常値が変動するケースも多く、一律のしきい値では適切に判断できないことも少なくありません。
例えば、アクセス数やトラフィックが時間帯によって大きく変動する場合、昼間のピーク時と夜間では正常な範囲が異なります。このような指標に対して固定のしきい値を設定すると、誤検知や見逃しが発生しやすくなるでしょう。
アノマリ検知では、こうした通常時の傾向や変動パターンをもとに異常を捉えるため、固定のしきい値では定義しづらい「通常とは異なる」状態を捉えられる点がメリットです。

運用負荷を軽減できる

アノマリ検知のメリットとして、運用負荷を軽減できる点が挙げられます。
従来のしきい値検知では、多数のメトリクスを手動で確認したり、しきい値を個別に設定・調整したりする必要があり、担当者の負担が大きくなりがちです。
監視対象が増えるほどアラートの数も増加し、誤検知や不要な通知への対応に時間を取られるケースも少なくありません。
アノマリ検知では、膨大なデータをもとに異常の兆候を自動的に抽出できるため、人手による監視や判断の負担を軽減できます。
固定しきい値による誤検知が減り、アラートノイズを抑えられれば、本来優先すべき重要な業務に集中しやすくなるでしょう。

アノマリ検知の運用課題

アノマリ検知にはメリットだけではなく運用課題もあるため、併せて確認しておきましょう。主な課題は下記のとおりです。

<アノマリ検知の運用課題>
・設定によってはアラート疲れが発生する
・判定根拠の説明が難しい場合がある
・しきい値検知との併用が前提となる場合がある

設定によってはアラート疲れが発生する

アノマリ検知では、設定によってはアラートが過剰に発生し、いわゆる「アラート疲れ」が発生する可能性があります。
例えば、標準偏差の幅を狭くしすぎると、わずかな変動でも異常と判定され、誤検知が多発します。その結果、アラートが頻発し、本来対応すべき重要な異常が埋もれてしまいかねません。
このような状態が続くと、アラートへの対応が遅れたり、見逃しが発生したりするリスクが高まります。
そのため、重要な変化のみを検知できるように感度を適切に調整し、アラートの頻度と精度のバランスを取ることが重要です。

判定根拠の説明が難しい場合がある

アノマリ検知は、異常と判断した根拠を説明しづらい場合がある点に注意が必要です。
日次・週次・季節性など、どの時間軸や周期性を前提に学習しているのかが直感的に伝わりにくく、「どの基準と比べて異常と判断したのか」を言語化しづらいケースは少なくありません。
例えば、サービスを扱う担当者とモニタリングを行う担当者が分かれている場合、異常度を示すスコアの意味を共有しづらく、「なぜアラートが出たのか」を説明するのが難しくなります。
また、従来のように明確なしきい値を設定して管理していた現場では、統計モデルに基づく判定ロジックがわかりにくく、チューニングや運用の負荷が高くなることもあります。

アノマリ検知を運用する際には、検知ロジックの前提やスコアの意味を関係者間で共有し、「なぜ異常と判断されたのか」を説明できるように運用設計を行うことが重要です。

しきい値検知との併用が前提となる場合がある

絶対に超えてはならないラインがある指標については、アノマリ検知だけでは適切に管理できない場合があります。そのようなケースでは、固定値で判定できるしきい値検知を併用し、用途に応じて使い分けることが重要です。
例えば、ディスク使用率が90%を超えたら即時対応が必要なケースや、「同時接続5,000人を超えてはならない」といったビジネス上の制約値などは、ガードラインとして固定のしきい値で管理するほうがわかりやすく確実でしょう。

アノマリ検知・予測・対応を支援するNew Relic

アノマリ検知は、アラートを発報するまでの役割を担うことが一般的です。そのため、実運用では「なぜ起きたのか」「どこに影響しているのか」「次に何をすべきか」を判断する必要があります。
運用をスムーズに行うためには、検知だけでなく、分析や対応までを一体的に行える仕組みが重要です。

New Relicでは、アノマリ検知を含む各種アラートや収集データをもとに、異常の検知から分析、対応判断までを一連の流れで支援します。
AIを活用し、通常時からの逸脱検知や分布に基づく外れ値検出、将来の傾向予測を自動化するとともに、検知したアノマリをサービス構成や関連データと関連付けて可視化します。
これにより、予兆の把握から原因特定、対応判断までをスムーズに行える環境が実現可能です。
アノマリ検知と対応を支援するNew Relicの主な機能について、詳しく見ていきましょう。

<New Relicの主な機能>
・アノマリ検知
・予測アラート
・Workflow Automation
・SRE Agent(Public Preview)

アノマリ検知

New Relicのアノマリ検知は、通常時の傾向からの逸脱をもとに異常を検知できる機能です。
過去データをもとにベースラインを学習し、時系列における変化の異常を捉えるとともに、外れ値検出によって同一グループ内で他と大きく異なる挙動を示すエンティティも自動的に識別できます。
例えば、レスポンスタイムの急激な悪化やトラフィックの異常な増減といった時系列の変化に加え、クラスター内で1台だけCPU使用率が高いサーバーや、特定のApache Kafkaブローカーのみメッセージ処理が遅いといった、グループ内での相対的な異常も検知可能です。

これにより、異常の兆候を早期に把握するとともに、影響範囲や原因の特定を迅速に行うことができ、平均検出時間(MTTD)や平均復旧時間(MTTR)の短縮につながります。

外れ値検出については、下記のページをご覧ください。
外れ値検出
https://docs.newrelic.com/docs/alerts/create-alert/set-thresholds/outlier-detection/

予測アラート

予測アラートは、過去のデータをもとに将来の挙動を予測し、設定したしきい値を超える可能性がある場合に事前に通知する機能です。

従来のアラートは異常が発生してから検知しますが、予測アラートを活用することで、リソース不足や性能劣化などのリスクを事前に把握し、問題が顕在化する前に対応することが可能になります。

予測アラートについては、下記のページをご覧ください。
予測アラート
https://docs.newrelic.com/docs/alerts/create-alert/set-thresholds/predictive-alerts/

Workflow Automation

Workflow Automationは、アラートや外れ値検出の結果をトリガーに、通知先の振り分け、チケット起票、Runbookの起動などを自動化できる機能です。

検知結果に応じた対応フローをあらかじめ定義しておくことで、初動対応のばらつきを抑え、対応の迅速化と人的負荷の削減を実現できます。

Workflow Automationについては、下記のページをご覧ください。
Workflow Automation
https://newrelic.com/jp/platform/workflow-automation

SRE Agent(Public Preview)

SRE Agentは、オンコール対応のチームメイトとして設計されたインテリジェントなエージェント機能です。
テレメトリデータや運用で定めたワークフローと連携することで、単なるアラート通知にとどまらず、発生事象の切り分けから調査、分析、復旧に向けた判断を支援します。
また、自然言語からNRQLの作成を支援する機能などにより、データ取得の手間を減らし、アノマリ検知の「その後」の分析や対応判断の効率化に寄与します。

SRE Agentについては、下記のページをご覧ください。
SRE Agent overview

https://docs.newrelic.com/jp/docs/agentic-ai/sre-agent/overview/

アノマリ検知は、通常時の挙動や傾向からの逸脱に着目する検知の技術で、複数のアプローチがあります。時系列に基づくアノマリ検知だけではなく、分布に基づくアノマリ検知(外れ値検出)があり、これらをしきい値検知と組み合わせて活用することで、柔軟で実用的な監視体制が実現できるのです。

New Relicでは、アノマリ検知や予測アラートといった検知・予測機能に加え、Workflow Automationによる対応の自動化を組み合わせることで、検知後の分析から対応判断までを一体的に支援します。
これにより、予兆の把握から原因特定、初動対応までの一連の流れを効率化し、平均復旧時間(MTTR)の短縮と運用負荷の軽減が期待できます。
アノマリ検知の導入や高度化を進める際には、検知・分析・対応機能を備えたNew Relicの活用をぜひご検討ください。

資料請求
サービス紹介資料
New Relicサービス紹介資料
資料請求はこちら