最新のオブザーバビリティへの移行

「オールドスクールな」という言葉には、明らかに2つの異なる意味があります。一方では、まったく古びていない（そして今後も古びることのない）、王道の定番であることを指し、他方では、時代遅れの、古くさい、時流にそぐわないものを示唆します。

筆者はこれまでpingとSNMPの領域で経験を積んできたので、言いづらいことではありますが、「オールドスクールな監視」は、明らかに後者のカテゴリーに属します。その当時、企業が提供するエクスペリエンス（ここではそれをサービスと呼びましょう）の測定は、たとえできたとしても、そう簡単なことではありませんでした。全体として、サービスの各部分から得たデータに基づくユーザーエクスペリエンスを推測しようとすることに終始していました。CPU、メモリ、データベースのメトリクスを測定し、あとはこれらのメトリクスが、サービスが本当に顧客を満足させているかどうかを判断するのに充分なデータを反映していることを願うばかりでした。この「オールドスクールな」考え方では、推測的な洞察を充分に積み上げれば、ユーザーの実際のエクスペリエンスの全体像を得られるはずでした。

このアプローチの問題点は、これでは全体像を得ることができないということです。今回のブログでは、最新でより完全なオブザーバビリティへの移行方法をさらに理解するため、どのように考えたら良いか、再構築の方法を紹介します。

新たな時代の、新たな監視方法

「これがずっとやってきたやり方だから」は、今日の監視とオブザーバビリティの可能性に向けて、順応や改善を避ける言い訳には決してなりません。

ちなみに、オブザーバビリティ（可観測性）の特性のひとつは、システムの外部アウトプットから内部オペレーションを理解する能力です。「観測できる」システムでは、こちらから尋ねることなく何が行われているかが示されるのです。これが、昔ながらの監視と最新のオブザーバビリティの機能の違いを端的に表す一例です。監視（モニタリング）とは、システムの現在のステータスについて繰り返し尋ね続ける行為です。一方で、オブザーバビリティとは、システムが通常のオペレーションを中断することなく、現在のステータスを出力することを意味します。

さらに良いことに、オブザーバビリティでは、アプリケーションの計装がかつてなく簡単になっています。アウトプットがメトリクスであれ、イベントやログ、トレースであれ、最新のオブザーバビリティソリューションには、APIからエージェントまで、既存のコードに焦点を合わせる多様な方法があります。これにより、各自のニーズに最も適合する形でオブザーバビリティを自由に組み込み、拡張することができます。

「オールドスクールなメトリクスはもはや不要なのか」と思われる前に、これは「どちらか」ではなく「どちらも」必要な状況であるということをはっきり述べておきたいと思います。それらの下位レベルのデータポイントは、役に立つだけではなく、必要なものでもあります。

もしSANアレイ（※ストレージシステム）内のHDDドライブでエラーが生じ始めたら（完全に障害を起こすまでに数週間かけて状況が進行する不具合だったとして）、トレースやユーザーエクスペリエンスの監視では決して根本原因は解明されません。そのような「上からの視点」では、ストレージの問題やネットワークデバイスのメモリモジュールの問題、サーバーのドライバ破損、もしくはコンテナオーケストレーションシステムに使用されているイメージファイルの設定ミスでさえも、区別できないかもしれません。この種の洞察に関しては、まだまだ従来の監視テクニックや技術が必要なのです。

オブザーバビリティの例

では、オブザーバビリティの実例はどんなものなのか見てみましょう。

次の例のWebPortalアプリケーションでは、顧客からの問い合わせの上昇といった問題が発生しているようです。単一のロケーションから5分おきに実行した外形監視の結果ではなく、本番環境において実際に何が起こっているのかを理解する必要があります。次のステップでは、New Relicツールを利用して何が起こっているのかを確認します。

ロードアベレージの平均値は通常よりやや高い上昇となっているものの、0.06ポイントはまったく致命的ではありません。一方で、その他のステータスは通常通りです。

数年前でさえ、ここが問題解決のスタート地点です。たったこれだけのデータセットでは、どんな問題が隠れているのかはほとんど示されていません。

しかし今では、メトリクスだけでなく、さまざまなテレメトリオプションをサポートする堅牢なツールがあります。アプリケーショントレーシングとは、実際のユーザー環境でコードがどのように動作しているかを追跡する行為です。一連のツールセットにこれを持っていることで、以下のようなものが見られるようになります。

上の図のような支援機能があれば、何が起きたのか、それはいつなのか、さらにはその原因まで簡単に確認できるようになります。小さな灰色の点は何でしょうか？それらは「デプロイメントマーカー」と呼ばれ、コードが変更され本番環境にデプロイされたタイミングを示しています。トレースからのテレメトリは、詳細で有意義かつ具体的なため、より掘り下げて特定のトランザクションを確認できます。

ここから皆さんは、browse/plans.jspの7秒間もかかっているトランザクションを調査するか、もしくはその名の通りのoops.jsp（おおっと！）の98.16%のエラーレートを調査するかを判断できます。

しかし、これをお見せしているのは、アプリケーションパフォーマンス監視（APM）を紹介するためではなく、リアルタイムのパフォーマンスメトリクスが、アプリケーション内の問題の特定および調査方法を完全に変えることを示すためです。

しかしこれは、従来のメトリクスが完全に無用になるということではありません。先ほども述べた通り、問題の原因は単に物理メモリの不具合やデータベーステーブルの破損なのかもしれないのです。ここで示唆するのは、APMやトレースで可視化される顧客体験を優先させて、詳細を掘り下げる必要がありそうなケースを判断できるということです。

必要かどうかではなく、いつ使うか

では、変わった点は何かというと、それは従来の監視やオブザーバビリティテクニックが必要かどうかではなく、それらをいつ使用すべきかです。

監視とオブザーバビリティの核心は、一連の対象からの計測データを一貫して収集することにあります。その他のアラートやレポート、ダッシュボードなどは、単にそもそも観測データを収集することからのうれしい副産物に過ぎません。

では、もし今すべてのデータを収集しているのなら、オールドスクールな監視から最新のオブザーバビリティへの移行で変わらなければならないのは何なのでしょうか？一言で言えば、それは「視点」です。

最新のオブザーバビリティへの移行のために、古いツールを手放す必要はありません。その代わり、自分たちの「古い視点」や「思考」を手放す必要があります。肝心なこと、すなわちサービスを使用している人々のエクスペリエンスの測定から始めるのです。このレベルでの失敗は「現実の」失敗であり、早急な対応が必要になります。

その対応には、利用できるリソースを増やしたり、最新コードでのコンテナの再デプロイのような自動化も含まれます。これらの自動化した対応で問題を解決できない場合、はじめて人間が直接関与する必要が出てきます。

ここが、下位レベルの情報が必須になるケースです。なぜなら、一旦すべての標準的な自動化が容易な対応が実行されれば、問題はスタックの深い部分にある可能性が高いからです。しかし、問題が発生した後でデータを収集するのでは明らかに非効率です。データはずっと収集されていなければならないのです。

過去を忘れずに前を向く

最新のオブザーバビリティは、ユーザー体験をあるべき地位、すなわち最優先に置くことを意味します。これには、目指すべきユーザー体験への正しい期待を理解し、設定することも含まれます。もし体験が期待を下回っているなら、さらなる洞察を集中させるのです。

最新のオブザーバビリティ技術とツールは、ついにIT実践者が常に望んでいたアプリケーションへの視点を得られる能力を提供できるようになりました。今私たちがすべきことは、頂上へ到達するまでの過程で得てきたすべてを見失うことなく、自分たちの視点を移すことなのです。

次のステップ

New Relicの利用は初めてですか？New Relicをまだお使いでないなら、無料アカウントにご登録ください。アカウントには、毎月100GBの無料データ取込み、1名の無料フルプラットフォームユーザー、および無制限の無料ベーシックユーザーが含まれています。

By Leon Adato, 開発者関係エンジニア

レオン・アダトは、New Relicの開発者関係の支援者です。彼は、Cisco、Microsoft、A+など、IT業界での33年間で、複数の業界認定を保持しています。彼の経験は、金融、医療、飲食、およびその他の業界まで多岐に渡ります。New Relicとの関係が始まる前、ほぼ10年間、彼はモニタリングとオブザーバビリティにおけるスピーカーでありブロガーでした。彼のIT業界における職業生活は1989年に始まり、クラスルームトレーニング、デスクトップサポート、サーバーサポート、およびソフトウェア販売という役割をこなしてきました。

本ブログに掲載されている見解は著者に所属するものであり、必ずしも New Relic 株式会社の公式見解であるわけではありません。また、本ブログには、外部サイトにアクセスするリンクが含まれる場合があります。それらリンク先の内容について、New Relic がいかなる保証も提供することはありません。

780+ インテグレーションを導入し、スタック監視を無料で開始しましょう

詳細を見る

In this article

オールドスクールな監視から最新のオブザーバビリティへ

新たな時代の、新たな監視方法

オブザーバビリティの例

必要かどうかではなく、いつ使うか

最新のオブザーバビリティソリューションを実現する方法

オブザーバビリティの能力を追加する

ツールを統合する

入力を簡素化する

過去を忘れずに前を向く

次のステップ

オールドスクールな監視から最新のオブザーバビリティへ

新たな時代の、新たな監視方法

オブザーバビリティの例

必要かどうかではなく、いつ使うか

最新のオブザーバビリティソリューションを実現する方法

オブザーバビリティの能力を追加する

ツールを統合する

入力を簡素化する

過去を忘れずに前を向く

次のステップ

タグ

関連記事