不具合が起こった際にもっとも避けたいのは、その問題を顧客から知らされることです。可能ならば、顧客が影響を受ける前にその問題を検知し、修正できるのが理想的です。しかし、もしすでに問題が発生してしまっていたら、顧客が連絡してきた時点ですでに対応を進めておくために、必要なコンテキストと分析を手に入れることは不可欠です。
システムはこれまでになく複雑になっていても、チームのメンバーは全員が生身の人間です。幸いなことに、あらゆる場所での問題の検出、診断、解決に、機械学習(ML)と人工知能(AI)を活用することができます。
今年のFutureStack 2021で、AIOpsとして知られる、IT運用へのAIとML適用に関する領域での複数のイノベーションが発表されました。問題マップやインシデント分析をはじめ、より高性能で容易になった検出と高次の分析からメリットを得るために、チームが利用できるツールをご紹介します。
インテリジェントな検出
拡張された異常検出
限定リリースの拡張された異常検出機能により、わずか数回のクリックでNew Relicのほぼすべてのエンティティの異常を検知できるようになりました。
New Relic Lookoutとワークロードを通じて、今後は単にAPMでの異常検出を超え、あらゆる種類のエンティティに異常検出機能をすばやく適用できます。これにより、ほぼあらゆる場所の問題を、それが顕在化する前に発見できるようになります。
すでに既存の異常検出設定がある場合も、心配は無用です。それらの設定は影響を受けません。さらに、この拡張された異常検出機能では、異常を検出するアルゴリズムをより高度に制御できるため、必要なカスタマイズがしやすくなりました。
より速く、簡便な、拡張された異常検出機能で、さらに平均検出時間(MTTD)を短縮できます。
拡張された異常検出機能を使用するには、こちらからサインアップしてください。
よりスマートで簡便なアラート
ビジネスにおけるサービスやインフラは常に変化しています。静的閾値をマニュアルで設定するために個々のサービスの予想性能を理解しようとする代わりに、今後はすべてのサービスとインフラをカバーするベースラインのアラート条件を作成して、簡単に動的閾値を利用できます。それらが、予想されるビジネスの流動性や変動性を加味して調整を行います。
既存の動的ベースラインアラートを拡張することで、これまでは個々のシグナルに個別の設定が必要であったのに対し、特定のサービスやエンティティの最大5,000の関連する時系列に動的閾値を適用する、一元的なアラート設定ができるようになりました。これにより、チームはすべてのエンティティをカバーするアラートの追加がより簡単に行えます。どんなチームも、ただの傍観者としてこのインシデント対応のメリットを見過ごすべきではありません。
静的閾値の設定は、多くのエンジニアにとって煩雑なことかもしれません。幸いなことに、すべてのサービスやインフラをカバーする動的なベースラインアラート条件の作成は簡単です。使用しているNRQLクエリに「FACET」句を追加し、次にモニターしたいシグナルを差異化するメタデータ属性を特定します。最後に、ユーザーインタフェースのスライダーを調整し、感度の設定と調節を行うだけです。
ファセットベースライン条件についての詳細はこちらをご覧ください。
根本原因をより迅速につきとめる
問題マップ
New Relic Applied Intelligenceは、関連するインシデントを、その問題の迅速な理解と解決に必要なコンテキストが与えられた、対応すべき単一の問題に相関づけることで、アラート疲れを軽減します。そのためにもっとも重要なのは問題ページで、ここには相関するすべての問題が一覧になっています。
問題ページで問題を選択すると、該当する問題のより詳細な分析と概要が表示されます。問題ビューではトップダウンアプローチが採用されており、問題の概要から始まります。ページ下部に進むに従い、予想される根本原因などの追加情報によってさらなるコンテキストが提供されます。
問題ビューで表示される問題マップでは、影響を受けているエンティティが視覚化されます。問題マップでは、エンティティがどのように相互接続されているかが示され、関連エンティティが不具合を起こしていないか、隣接エンティティがリスクにさらされていないか、また下流エンティティが影響を受けていないかをすばやく確認できます。
該当する場合は、問題マップには上流・下流のエンティティが表示され、対応中の問題の範囲と潜在的影響がわかりやすく可視化されます。さらに、サービスを運営しているホストや、所有者 (オーナー)、地域、環境などの基本的タグといった、フルスタックのDevOpsコンテキストが明示されます。
また、問題マップはインタラクティブで、New Relic Oneに高度に統合されています。あるエンティティをクリックすると、そのエンティティの概要を示す全詳細が表示されます。また、エンティティにカーソルを移動すると、新たな依存関係ビューが開きます。このビューには全コンテキストが表示され、まとめてタグ付けやワークロードに追加するワークフローが可能です。
影響を受けているエンティティのマップについての詳細をご覧ください。
インシデント分析
New Relic Applied Intelligenceは、予想される根本原因を自動的に表面化します。また、問題を発生させている個別のインシデントの詳細を、これらの特定のシグナルの自動分析により確認できます。問題となっているクエリへのリンク、エラー分析、コードレベルのスタックトレース、外部のサービスコール分析を使用したデータストア分析により、問題をより調査しやすくなり、迅速に診断できるようになります。
関連性のあるダッシュボード
すでにチームでカスタムダッシュボードを作成し、オブザーバビリティのカスタマイズに投資を行っているかもしれません。その場合、すでに作成した中でもっとも関連性のあるダッシュボードが、追加の設定不要で示唆されるようになります。必要な情報を提供してくれるのがどのダッシュボードかを探し出す手間なく、示唆されたダッシュボードをただちに使用して、対応中の問題の解決に必要なコンテキストを入手できます。さらに、使えば使うほど、より適確な推奨事項を提供できるようになります。
詳細については、アラートとインテリジェンスの応用に関するドキュメントの問題の概要をご覧ください。
次のステップ
もし新たにNew Relicのご利用を始める場合は、まずは無料アカウントにご登録いただき、New Relic Oneのシンプルさを体験してみてください。New RelicのAIOpsについての詳細は、アラートとインテリジェンスの応用をご覧ください。
本ブログに掲載されている見解は著者に所属するものであり、必ずしも New Relic 株式会社の公式見解であるわけではありません。また、本ブログには、外部サイトにアクセスするリンクが含まれる場合があります。それらリンク先の内容について、New Relic がいかなる保証も提供することはありません。