日々進化しているインフラを監視するために何が重要かを書いた、2017年のブログ投稿「28 Things Your Dynamic Infrastructure Monitoring Solution Must Have」の抄訳です。

28は多いんじゃないか!と思われるかもしれませんが、実際には6つのカテゴリに分かれています。


昨今の複雑で動的な IT 基盤の管理は、必ずしも容易ではありません。問題を迅速に解決し、素早くスケールし、スマートにデプロイするために必要なリアルタイムの可視性を提供するための強力な機能が必要です。

動的なインフラのための監視ソリューションの検討や評価をしている方の手助けとなるよう、効果的なソリューションが提供すべき28の重要な要素をまとめました。リストを把握しやすくするために、アラートからインテグレーションまでの6つのカテゴリに分解し、各カテゴリで何を探すべきかの注釈を付けています。

カテゴリ1: 変更管理の可視化

  1. 監視ソリューションは、各サーバーの構成のインベントリを作成できなければなりません。
  2. サーバーへの一般的な構成変更を過去および発生時に追跡することができなければなりません。
  3. 一般的な構成変更と、サーバー上でホストされているアプリケーションへの影響を関連付けることができなければなりません。
  4. 一般的な構成変更を時系列表示で提供することができなければなりません。
  5. サーバーにインストールされたパッケージをレポートし、矛盾や異常をレポートすることができなければなりません。

設定変更には常にリスクが伴います。企業はテストやピアレビューでこのリスクを最小限に抑えることができますが、この作業中に何かがうまくいかなくなる可能性を完全に排除することはできません。調査によると、大規模な IT サービスの停止の大部分は、人とプロセスの問題が原因であり、多くの場合、変更、リリース、および構成管理の間の調整問題が原因であることがわかっています。堅牢な監視ツールは、時間の経過とともに変化を見るだけでなく、それらの変化をホストやアプリケーションのパフォーマンスへの潜在的な影響と迅速に関連付けることができなければならないことは明らかです。

カテゴリ2: データの収集と分析

  1. 監視ソリューションは、少なくとも5秒単位の粒度でホストメトリクス(CPU、メモリ、負荷、ディスク、ネットワーク、プロセスなど)を収集することができなければなりません。
  2. ユーザーがメトリクスを動的にフィルタリングし、より深い分析のために他のデータ群と関連付けられるようにしなければなりません。
  3. 自動化されたタグ(ホスト名など)でインフラストラクチャコンポーネントにタグを付けるメカニズムを提供し、カスタムタグを指定する機能もサポートしなければなりません。
  4. ユーザーがすべてのメトリック群にタグを適用して、表示されるデータをカスタムフィルタリングできるようにする必要があります。
  5. 長期的な傾向、レポート、分析を可能にするために、1年以上のデータを保存する必要があります。
  6. 動的なダッシュボード機能を提供し、ダッシュボードのカスタマイズ機能をサポートしている必要があります。
  7. アプリケーションやサードパーティのデータと同じビューでインフラストラクチャのデータをダッシュボードに表示できる必要があります。
  8. インフラストラクチャのリソース高騰をアプリケーションのパフォーマンスと関連付けることができ、ホストされたアプリケーションへの実際の影響を判断することを支援できなければなりません。
  9. 利用者がレポート期間を一般的な文言(「先週から」など)で指定したり、特定の時間(「午後12時」など)で指定したりすることができなければなりません。

多くのツールは、サーバーのリソース使用率に関する基本的な統計情報を収集することができます。しかし、オンプレミス、クラウド、ハイブリッドクラウドなど、動的に変化する今日のインフラ環境では、刻一刻と変化する可能性のある他のイベントやメトリクスとともに、そのデータを効率的に分析できることが非常に重要です。

データを収集するだけでは十分ではなく、最新のインフラ監視ツールは使いやすく、最新の情報を提供し、環境の健全性とパフォーマンスを向上させるためにデータを使用できるようにしなければなりません。動的タグ付けやダッシュボードなどの高度な機能は、関連する情報を可視化し、エンドユーザーに影響を与える前に潜在的な問題を修正できるようにします。

カテゴリ3: インテグレーション

  1. 監視ソリューションは、フロントエンド、バックエンド、外形監視、モバイル監視をサポートする実績のあるエンタープライズ対応のAPMソリューションと完全に統合されている必要があります。
  2. 追加コンポーネントを必要とせずとも、クラウドサービスとのインテグレーションをサポートしていなければなりません。
  3. 主要なクラウドサービスからデータを取得し、APMやインフラストラクチャのデータとともにクラウドのパフォーマンスをレポートすることができなければなりません。

ITインフラはそれ自体が目的ではありません。インフラは、その上で動作するアプリケーションをサポートするために存在します。ホストがサポートしているアプリケーションに与える影響を把握できなければ、どこに行くのか、どうやって行くのか、到着したら何をするのかを知らずに旅行に行くようなものです。最新のインフラ監視ツールは単独で機能するのではなく、アプリケーション、ブラウザ、モバイル、クラウドツールと一緒に使用することで、より全体像を把握し、問題を迅速に解決することができるようにしなければなりません。

カテゴリ4: 管理と使いやすさ

  1. 監視ソリューションは、100%SaaS(Software-as-a-Service)であるべきであり、データセンター内に追加のハードウェアや管理ソフトウェアを導入する必要はありません。
  2. セキュリティのベストプラクティスを採用し、適切なセキュリティ文書や認証を取得しており、健全なセキュリティ対策を実証できることが必須です。
  3. ソリューションは動的に拡張可能であり、追加の設定なしに1ホストから10万ホスト以上の環境をサポートできる必要があります。
  4. エージェントとベンダー間のすべてのトラフィックの検査を可能にするために、カスタムCA証明書をサポートできる必要があります。
  5. 各ホスト上の他の監視および非監視パッケージと同時に実行できなければなりません。

動的にスケーラブルで安全なシステムは、管理と保守に追加のスペース、労力、時間、および費用を必要とするシステムよに勝ります。SaaSツールは、これらの両方のニーズに対応し、他のアプリケーションへの影響を最小限に抑えるためのインストール方法を提供します。

カテゴリー5: コンテナのモニタリング

  1.  監視ソリューションは、Dockerやその他の主要なコンテナ技術をサポートしている必要があります。追加モジュールやソフトウェアをインストールすることなく、コンテナのメトリックデータを収集できる必要があります。
  2. 追加のソフトウェアを必要とせず、すべての主要なコンテナオーケストレーションソリューションをサポートしている必要があります。
  3. イメージ名、イメージバージョン、コンテナID、ユーザー定義タグによってコンテナのパフォーマンスを追跡することができなければなりません。

コンテナ技術は、多くの開発チームがアプリケーションをテストしてデプロイする方法を変えてきました。クラウドや仮想化技術と同様に、基礎となるホストに加えてコンテナエコシステムの健全性を監視する機能は、DevOps組織にとって不可欠と考えるべきです。何千ものコンテナがデプロイされている場合、特定のコンテナやコンテナのグループを素早く監視する機能は、レポートや分析活動を大幅に簡素化することができます。

カテゴリー6: アラート

  1. 監視ソリューションは、ユーザーがオンデマンドでデータチャートから直接アラートを作成できるようにしなければなりません。
  2. 設定済みのタグに基づいてレポートやアラートを作成できることが必要です。
  3. タグ駆動型のアラートをサポートし、人の介入なしにルールやパターンに基づいて新しいサーバーをアラートに追加できるようにしなければなりません。

何かが異常となったとき、あるいはいつもと違う状態となったときには、すぐに知る必要があります。現代の環境では、刻一刻と変化するクラウドインスタンスやコンテナによってアラートが複雑になることがあります。これらのシステムの動的な性質に対処するために、監視ツールは、ホスト環境に新しいシステムが追加されたり削除されたりすると、自動的にアラートを追加したり削除したりすることができなければなりません。これにより、システムごとに個別にアラートを設定するために貴重な時間を費やす必要がなくなります。

これらの大事な項目を満たす監視ツールとして、New RelicはInfrastrucuture監視機能を提供しています。他のブログ投稿も参考にしていただき、ぜひ無償トライアルをご体験ください。