アプリケーションを強化し、分散化マイクロサービスに対する依存度が高まるにつれて、インシデントの根本原因に対する判断はより複雑になっています。Zebriumの根本原因サービスとNew Relicは、ログにおける問題の根本原因検索の自動化をサポートします。ソフトウェアまたはインフラに問題が発生すると、Zebriumは素早くかつ正確に根本原因の指標となるものを見つけ出すため、すべてのログを手動で探し出す必要はありません。New RelicにZebriumを統合することで、New Relicのダッシュボードページに根本原因の詳細を表示でき、テレメトリデータを活用して問題をより迅速に特定し、トラブルシューティングする上で役立てできます。

New Relic インスタントオブザーバビリティ(I/O)Zebriumクィックスタート では、インシデントの検出、根本原因の詳細、Zebriumのユーザーインタフェースへのディープリンクなど、事前に構築されたダッシュボードを提供し、より簡単に素早く起動できるようにします。以下は、New Relicにおけるダッシュボードの例です。

New Relicは無料で使い始めることができます。New Relicのオブザーバビリティプラットフォームで利用可能な470以上のインテグレーションの一部として機能を使用できます。New Relicに新たにサインアップした方には、毎月100GBの無料データ取込み、1名の無料フルプラットフォームユーザー、および無制限のベーシックユーザー、クエリ、ダッシュボード、アラートが提供されます。 

Zebriumインテグレーションにより、問題の根本原因をより迅速に発見し、複雑なインシデントを解決する際のSREとDevOpsチームの負荷を軽減できます。以下は主な機能です。

  • ログの再調査が不要。問題が発生すると、関連するログがNew Relicのダッシュボードに自動的に表示されます。これによりダウンタイムを削減し、解決までの時間を数時間から数分に改善できます。
  • マニュアルによるトレーニングまたはルールが不要。初回設定に要する時間は約15分のみで、Zebriumの根本原因サービスは、わずか24時間以内にログデータから根本原因の指標となるものを正確に見つけ出します。機械学習 (ML) のマニュアルトレーニングの設定は不要です!
  • 正確で信頼のある根本原因の探索。最近のサードパーティ顧客の研究事例で、Zebriumはインシデントの95%以上の根本原因を自動的に発見できることが検証されました。

Zebriumインテグレーションで一目で根本原因を特定します

インテグレーションによって、手動でログを見つけ出すことなく、根本原因がいかに特定されるか見てみましょう。次の画像のダッシュボードは、Kubernetesクラスタで動くオンラインショッピングアプリのメトリクスを示しています。ダッシュボード上部の2つの時系列メトリクスのチャートは、機能停止が発生したことを示しています。

時系列メトリクスのチャートとZebriumの根本原因チャートを含むNew Relicダッシュボード。

左下のZebrium根本原因検索チャートは、垂直バーで問題の発生を示し、Zebriumの機械学習モデルが潜在的問題を検出したことを示しています。垂直バーはメトリクスのドロップと相関しています。一方、右下のZebrium根本原因レポートチャートは、Zebriumイベントの詳細を表しています。Zebriumイベントにマウスを重ねると、自然言語処理 (NLP) サマリと問題の根本原因決定に役立つワードクラウドを表示できます。Deep Link Url(ディープリンクのURL)を選択すると、Zebrium UIで根本原因レポートが開きます。

Zebriumの根本原因の詳細を表示するには、New RelicのDeep Link URL(ディープリンクURL)を選択します。

前の画像で示したように、根本原因レポートのZebrium UIが簡単に利用できます。インシデント発生中に約百万行のログが生成されました。レポートでは7つの異なるサービスから46行が抽出され、これらのログ行の検索にはマニュアルモデルのトレーニングや規則は不要でした。レポートのクィックレビューで、以下が明らかになりました。

  • 英語の自然言語処理(NLP)サマリは、「Chaos Monkeyがオーダーを作成しようとしていた」といったように、問題に対する優れた判断を提供します。
  • ワードクラウドは「ポッドネットワーク破損」とその他の関連語を示しています。
  • 根本原因の説明をするログ行。

Zebriumは統計的機械学習を使用し、リアルタイムでログを解析します。機械学習モデルは、熟練エンジニアがトラブルシューティング時に行うログ検索プロセスに基づいています。通常、問題発生時のエラーの検索ならびに、その時間においてすべてのログを検索して問題を説明するような稀なまたは予期しないイベントを見つけ出す行為が関与しています。

根本原因の自動的特定を数分で開始する方法

New Relicで自動的にZebriumイベントから根本原因を表示させるには、以下のビデオを観るか、またはビデオ後にリストされた手順に従います。すべての設定には約15分かかります。

  1. アカウントを設定します。インテグレーションを使用するには、New RelicZebriumのアカウントが必要です。無料で開始できます。
  2. ログコレクターをインストールし、ログをZebriumにストリームします。サポートされているコレクターとインストール方法について詳しく読みます。
  3. New Relic APIキーを取得しますNew RelicのAPIキーに移動します。Create a keyを選択します。アカウントを選択し、アカウントIDを書き留めます。キータイプとして、Ingest - Licenseを選択します。APIキーの名前とメモを入力してから、Create a keyを選択します。新しいキーの隣にある3つのドットを選択し、Copy keyを選択して、後で保存します。
  4. Zebriumのインテグレーションを有効化します。 ZebriumのUserメニューに移動し、Integrations & Collectors(インテグレーションとコレクター)を選択してから、Observability Dashboards(オブザーバビリティダッシュボード)セクションのNew Relicを選択します。General(一般)タブを選択し、インテグレーション名を入力します。インテグレーションのDeployment(デプロイメント)を選択、Service Group(s)(サービスグループ)を選択してから、Send Detections(検出を送信)タブを選択します。Enabled(有効)を選択し、前の手順からAccount Id(アカウントID)API key(APIキー)を入力します。次に、Save(保存)を選択します。
  5. クイックスタートでデータを可視化します。ZebriumからNew Relicへ検出を送信するインテグレーションを有効化したら、クイックスタートをインストールし、ダッシュボードをキュレーションします。New Relic I/Oで、Zebrium Root Cause as a Service quickstart(Zebriumの根本原因のサービスクィックスタート)へ移動し、Install Now(今すぐインストール) ボタンを選択し、ガイド付きインストールプロセスに従います。

終了すると、自動的にNew Relicのサンプルダッシュボードに、検出した問題とその根本原因を表示できます。また、サンプルチャートをその他のNew Relicダッシュボードにコピーし、カスタマイズ表示できます。

New Relic I/Oから、Zebriumの根本原因のサービスクィックスタートをインストールし、事前構築されたダッシュボードを取得します。

次回、P1インシデントを処理する必要がある場合は、自動的にNew Relicダッシュボードで何が発生したかを直接表示できます。Zebriumの根本原因サービス(RCaaS) は、数分で設定でき、規則またはマニュアルトレーニングなしで24時間以内に相関精度を実現できます。迅速に根本原因を検索し、決して再度ログを調べない。