大規模な Node.js 本番環境では、複数のアプリケーションを監視することが困難な場合があります。Node.js 用の New Relic APM エージェントは、個々のアプリケーションからログ、トレース、詳細なパフォーマンスメトリクスを取得するのに役立ちますが、すべての Node.js プロセス自体の全般的な健全性やリソース消費量、および CPU やメモリの使用率などの重要なプロセスレベルのメトリクスについてはどうでしょうか?
PM2 は、Node.js アプリケーション用の一般的なプロセスマネージャーであり、デプロイメントを簡素化し、信頼性を確保するように設計されています。自動アプリケーション再起動、負荷分散、監視機能などの堅牢な機能を備えており、本番環境レベルのNode.js環境管理において不可欠なツールです。
PM2 の API 監視を使用すると、アクティブなプロセスやリソース消費量などの詳細なテレメトリーデータに簡単にアクセスできるほか、Git へのコミット、アクティブなブランチ、Node.js のバージョン、エントリスクリプトなどの有用な詳細情報も入手できます。こういったインサイトは、パフォーマンスに関するトラブルシューティングや根本原因の特定を行う際に非常に役立ちます。
PM2 で監視できる情報
PM2 の API を使用すると、豊富な情報を取得できます。理想的には、ホスト上の PM2 の監視 API を使用して視覚化できるすべてのメトリクスを取得し、New Relic にエクスポートすることができます。
このブログ記事では、PM2 の監視において特に重要な各種メトリクスを中心に取り扱います。
アプリケーションIDとホスト情報
PM2 の一部として現在実行されているアプリケーションのホスト ID といったアプリケーションの詳細情報を使用すると、各アプリケーションに関連付けられているインスタンスを簡単に特定できます。これによって特定のプロセスを識別しやすくなり、効果的に管理できるようになるため、複数のサービスが存在する環境で特に便利です。
メトリクス:appName
、hostId
リソースメトリクス
CPU やメモリの使用率といった各プロセスのメトリクスからは、アプリケーションのリソース消費とパフォーマンスに関する重要なインサイトが得られます。axm_monitor を使用すると、HTTP のレイテンシ、アクティブなリクエスト、イベントループのレイテンシを追跡して、応答性をリアルタイムでモニターすることもできます。
メトリクス:monit.cpu
、monit.memory
、axm_monitor
(例:HTTP のレイテンシ、アクティブなリクエスト、イベントループのレイテンシ)
プロセス情報
プロセス ID、ステータス、稼働時間などのプロセスレベルの詳細情報は、各アプリケーションの健全性やライフサイクルをモニターするのに便利です。プロセスが最後に更新または開始された日時を追跡すると、頻繁に再起動する、稼働時間が異常に長いといった問題を特定する際に役立ちます。
メトリクス:pid
、pm2_env.status
、pm2_env.pm_uptime
、pm2_env.created_at
、timestamp
、pm2_env.update_time
デバッグポインター:ログ、エラー、再起動、クラッシュ
ログのパス、エラーコード、再起動回数といったデバッグの詳細情報があると、トラブルシューティングを迅速に行うことができます。標準的な出力とエラーログの両方、および再起動に関する情報が取得できれば、安定性の問題やアプリケーションに潜んでいるバグを正確に特定する際に役立ちます。
メトリクス:pm2_env.error_file
、pm2_env.out_file
、pm2_env.exit_code
、pm2_env.unstable_restarts
、pm2_env.restart_time
、pm2_env.status
バージョン管理とデプロイメントに関するインサイト
Git にコミットした履歴や Node.js のバージョンなどのデプロイメントの詳細情報があると、デプロイされたバージョンを簡単に追跡できます。PM2 はブランチ、リビジョン、コミット情報を保持しています。これによって実行中のバージョンを明確に把握できるので、コード変更後の根本原因分析が容易になります。
メトリクス:pm2_env.node_version
、pm2_env.version
、pm2_env.versioning*
PM2 からインサイトを取得する方法
現在、New Relic エージェントと PM2 は直接統合されてはいませんが、Flexを使用して独自のインテグレーションを構築することができます。Flex は使いやすくてエージェントレスなツールで、データソースと New Relic の間のインテグレーションを構築する際に使用します。
設定
まず、pm2_monit.yml という名前の設定ファイルを新規作成します。次に、以下の設定を追加します。
この設定は PM2 jlist API を呼び出し、JQ を使用して JSON 出力データをサニタイズするという簡単なものです。JQ は、JSON データの処理、クエリ、変換に使用されるコマンドラインユーティリティです。Flex には JQ のサポートが組み込まれているため、データのサニタイズと変換が容易になります。
元の出力には不要な機密の詳細データが含まれている可能性がありますが、Flex の JQ および remove_keys 関数を使用すると簡単に削除いただけます。
基本設定
JQ による JSON 変換
この段階では、PM2 jlist
の出力は JSON 形式の生データです。JQ を使用して JSON 出力のサニタイズと変換を実行し、必要なフィールドのみを保持するようにします。さらに remove_keys
関数とrename_keys
関数を使用してデータを整理します。
ユーザーコンテキストの切り替え
デフォルトで Flex コマンドは root (sudo) ユーザーで実行されるため、Flex 設定の command
ブロックにて、PM2 プロセスを実行しているユーザーに切り替える必要があります。Windows または Mac のローカルで PM2 を実行している場合は、Linux 固有のコマンドではなく、npx PM2 jlist
コマンドを使用してください。
設定全体は次のようになります。
検証
設定の確認は Flex のデバッグモードで検証ができます。Flex の独立したバイナリモードを使用している場合は、次のコマンドを使用して設定をテストします。
New Relic の infrastructure エージェントの Flex インテグレーションを使用して設定をテストする場合、次のコマンドを実行します。
Flex のテストとデバッグの詳細については、こちらのドキュメントでご確認ください。
正常に実行されると、以下に示すような出力が表示されます (ここでは Flex のデバッグ出力は記載しておりません)。
Flex で PM2 プロセスから取得し JQ で変換した後の単純化されたデータは以下のようになります。
検証
Flex は処理されたデータをすべて New Relic のイベントAPI 経由で送信します。これにより、さまざまな種類のイベントデータを効率的に処理できるようになります。この設定では、イベントに PM2Sample という名前を付けます。システム内の他のイベントと明確に識別できるため、混同する心配がありません。
このイベントに関連付けられたすべてのデータは、このテーブル自体で New Relic Query Language (NRQL) を使用して簡単にクエリできます。
NRQLでのPM2Sampleのクエリ
可視化
New Relic プラットフォームでデータにアクセスできると、ニーズに関連する特定のメトリクスを簡単にクエリすることが可能で、またカスタマイズした形で可視化できます。パフォーマンスの傾向分析やプロセスの健全性監視を実行し、現在 PM2 で実行されている個々のアプリケーションの詳細なバージョン情報を収集することもできます。
カスタマイズした形で可視化できるため、目的に最適な方法でデータを表示し、複雑な情報をより深く理解することができます。さらに、これらのメトリクスを使用して、パーソナライズされたアラートを設定することもできます。
PM2Sample
について詳しく見ていきましょう。これで、個々のアプリケーションの平均 CPU 使用率を簡単にクエリできるようになります。
PM2SampleのアプリケーションごとのCPU使用率
また、時系列データを取得すると、APM メトリクスには含まれない PM2 のすべてのアプリケーションのメモリ消費量と CPU 使用率を時系列的に比較することもできます。
PM2SampleのメモリとCPUの時系列データ
NRQL では、ダッシュボード機能を使用して、メトリクスに対するクエリやメトリクスの可視化を簡単に行うことができます。以下は、PM2 監視用に作成したカスタムダッシュボードの設定例です。アプリケーションごとのメモリ使用量、アクティブなアプリケーションの合計の CPU 使用率 vs メモリ使用量、PM2 利用のアクティブなプロセスの最新のアプリケーションリビジョンの詳細など、さまざまなメトリクスを取得します。
PM2Sample用に作成したカスタムダッシュボード
PM2_monit_dashboard にある JSON を使用してこのダッシュボードをインポートします。インポートする前に、すべてのプレースホルダーのアカウントID(1234567
)を ご自身の New RelicアカウントID に置き換えてください。
まとめ
PM2 のテレメトリーは CPU、メモリ、アプリケーションログなどの重要なメトリクスを取得するもので、プロセスレベルのインサイトを得ることができます。Flex はカスタマイズして New Relic と統合することができるため、これらのデータポイントを単一の統合ビューにまとめることができます。これらを組み合わせることで、アプリケーションパフォーマンスの可視性が向上するだけでなく、根本原因の分析やプロアクティブな監視が容易になります。
本ブログに掲載されている見解は著者に所属するものであり、必ずしも New Relic 株式会社の公式見解であるわけではありません。また、本ブログには、外部サイトにアクセスするリンクが含まれる場合があります。それらリンク先の内容について、New Relic がいかなる保証も提供することはありません。