サービスダウンを検知したけど、影響範囲は?

 

前記事、CDN障害をいち早く検知するためのNew Relic Synthetics活用法 では外形監視を使ってサービスダウンを知る方法をについて紹介しました。

サービスダウンを検知できたときに、次に確認すべきなのは、"影響範囲はどこまでか"、"どれくらいのユーザーに影響が出ているのか"という点です。これらを知ることによって、暫定対応の方針を立てたり、ユーザーに適切な案内を届けることができるからです。

これらの情報を得るのに強力な助けとなるのが、New Relicのリアルユーザーモニタリングの機能です。この記事ではリアルユーザーモニタリングを使って、以下の3つの観点を分析していく方法を解説します。

  • アクセス不能になったページの分析(New Relic Browser)
  • モバイルアプリから接続できなくなったAPIの確認(New Relic Mobile)
  • 動画プレイヤーから発生したエラーの確認(New Relic Browser/Mobile)

 

New Relic Browserを使ってアクセス不能なページを知る

 

CDN障害が発生したとき、WebページそのものがCDNにホスティングされている場合はWebページ自体にアクセスができなくなります。その結果、問題が起こっているページではページビュー数が大幅に落ち込むという現象が発生します。New Relic Browserでは、実際のユーザーがWebページにアクセスしたという情報を記録するため、ページビュー数の落ち込みなどをリアルタイムに確認することができます。

CDN障害の発生時刻前後の状況をNew Relic BrowserのSummary画面で確認すると、赤丸で囲ったThroughputが落ち込んでいることが確認できます。このことは、CDN障害でアクセス不能になったページがあることを示しています。

それではサイト全体の中で、どのページがアクセス不能になっているのかもう少し分析してみましょう。New Relic上でデータ分析をするためのクエリ言語、NRQLを使うと、ある特定の軸でグルーピングされたThroughputの値をチャートに表現することができます。ここではページのURLでグルーピングを行っている例を示しています。

この分析によって、障害の影響を受けているページを素早く確認することが可能です。他にも地域別や端末種別など様々な視点でグルーピングを行うことができます。

このように、New Relic Browserを使ってユーザーがページにアクセスできていない状況を的確に把握することが可能です。

 

New Relic Mobileを使ってアプリが通信不能になっている状況を知る

 

モバイルアプリの多くはネットワーク越しにコンテンツを取得しています。提供されているコンテンツがCDNにホスティングされている場合、ユーザーはアプリを利用中に"通信エラーが発生しました"というエラーメッセージを見ることになります。この起こってほしくないエラーの発生状況をNew Relic Mobileで簡単に確認することができます。

同じくCDN障害の発生時刻前後の状況をNew Relic Mobileの画面で見てみましょう。左メニューから"HTTP errors"を選択すると、モバイルアプリからのリクエストに関するエラーの情報を確認することができます。すると、普段と異なりエラーが多発していることが赤丸の箇所から確認できます。また、ドメインごと、リクエストパスごとのエラー発生数の確認も簡単にできることがわかります。

 

リクエストパス以外のグルーピングができるのはBrowserと共通しています。UI上の"GROUP BY"という項目を変更するだけで簡単にビューを変更することができます。添付画面はアプリのバージョンごとのエラー数を確認するビューに切り替えた様子です。

 

以上のように、New Relic Mobileを使ってモバイルアプリが通信不能になっている状況を簡単に把握することができます。

 

New Relic Browser/Mobileを使って動画プレイヤーのエラー発生状況を知る

Webページとモバイルアプリの双方で、コンテンツの中に動画が埋め込まれることは当たり前になってきています。その動画がCDNにホスティングされているのもよくある構成です。このようなコンテンツにおいてCDN障害が発生すると、ページそのものは表示できているけれど動画だけ再生できない、という状況が発生します。

New RelicではBrowserエージェントおよびMobileエージェントのプラグインとして、動画プレイヤーのトラッキングをするモジュールを提供してます。このプラグインを使うと、ユーザー環境における動画再生のパフォーマンス、バッファリング発生状況、エラー発生状況等動画プレイヤーの振る舞いを収集することができます。

それではCDN障害が発生した際に、どのような情報を収集できるのか見てみましょう。画面の例では、プレイヤーから送信されている無数のイベントのうち、エラーのイベントのみを収集しています。プレイヤーから送信されるエラーイベントにはコンテンツ再生に関するエラーと広告再生に関するエラーの2種類があり、いずれも平常時より増加していることがわかります。

また、コンテンツ名や動画が埋め込まれているページURLなどでグループ分けをしてエラー発生数を分析することも可能です。

このように、状況確認が一見難しそうな動画プレイヤーの振る舞いも、New Relicを使って知ることができます。

 

まとめ

 

New Relic Browser/Mobileというリアルユーザーモニタリングの機能を使って、CDN障害の影響を簡単に知ることができることがわかったと思います。CDN障害に限らず、何かしらの障害が発生した際のユーザー影響を正しく把握するために、ぜひNew Relicを活用してください。