New Relic Infrastructureとは
New Relic Infrastructure はパブリッククラウド, コンテナ, OS,ミドルウェア, Network, OSS等の情報を収集することができるNew Relic のサービスです。
インフラ監視の基礎
インフラ監視ツールでは以下の4要素が共通する要素として存在します。
- 収集
- 判定
- 通知
- 分析
リソース監視、プロセス監視、機器監視、アプリケーション監視、ログ監視など世の中でシステム監視と呼ばれるものには複数の意味がありますが
システム監視を行う目的はシステムの安定稼働およびシステム稼働効率の最適化を行うことです。
今回はNew Relic Infrastructureでの「判定」について解説します。
New Relic InfrastructureでのAlert設定
New Relic Infrastructureでは収集した値に対して閾値を設定しAlert通知を行う事ができます。
閾値設定を行う場合は「Settings」を開き「Create alert condition」をクリックます。
もしくはNew Relic Infrastructureのグラフ上で「...」をクリックし「Create alert 」をクリックします。
初めに閾値に名前を設定します。Condition Nameには日本語を使用することもできます。
New Relic InfrastructureでのAlert type
Alert Typeではホスト、ネットワーク、プロセス、コンテナ、プロセス稼働状態、ストレージ、データレポート無し、Kubernetes、統合連携(クラウド等)の収集データを対象に設定することができます。
Alert Type毎にフィルタも変化するため
- 特定のホストのCPU使用率に閾値設定する(Host metrics)
- 特定のNICの通信量に閾値を設定する(Network metrics)
- 特定のプロセスのディスクI/O量に閾値を設定する(Process metrics)
などの設定が行えます。
New Relic Infrastructureでのフィルタ設定
New Relic InfrastructureのAlertはフィルタ設定を行わない場合にはデフォルト閾値として設定されます。
フィルターではOS種別やインスタンスタイプ、プロセス名や実行ユーザーなどを元に、Include、Excludeの設定を行うことができますので、
特定のホストや特定のプロセスを対象としたAlertを設定することもできます。
New Relic Infrastructureでの閾値設定
多くのAlert Typeでは数値設定による以上(below)、以下(above)、イコール(equal to)の状態が何分以上継続した(for at latast)かあるいは過去何分間で一度その状態を満たした(at least once in)かによって設定します。
また「+ Add a warning threshold」をクリックすると警告閾値を追加することができます。
Process running Alert Typeの場合
Processが存在しない(no prosess are running)、1つ以上のProcessが存在する(at latast one process is running)、指定した以上(more than)、指定した数(exactly)、指定した以下(fewer than)のProcessが存在しているというAlertを設定することができます。
Host not running Alert Typeの場合
Host not runningでは指定時間New Relic Infrastructureに対してデータを送信していないホストに対してAlertを出すことが可能です。
このとき「Don't trigger alerts for hosts that perform a clean shutdown」にチェックを入れておくことで、正常にシャットダウンを行ったインスタンスからデータが送信されていない場合は
not running としてのAlertを出さないように設定出来ます。
この機能は全てのWindowsホストとsystemdで動作するLinuxシステムでサポートされます。
New Relic Infrastructureでの通知設定
New Relic Infrastructureでは既に存在しているAlert policy もしくは新たにAlert Policy を作成して通知を行う事ができます。
Alert policy とは、通知先設定の集合の事を言います。
メール通知先であれば「Create a new policy」から即座に作成することができます。
運用開始前などで設定だけ行い通知を行いたくない場合には「Condition status」の「Enabled」チェックを外しておきます。
Alert発報の際に対応手順が規定されている場合には「Runbook」にURLを記載することで、対応ドキュメントのURLを通知文に含める事ができます。
Violation time limit にチェックを入れておくことで1時間から72時間の範囲でAlertの自動クローズを設定することができます。
チェックを入れていない場合には判定条件を満たさなくなるか、手動でクローズしない限り、Alertとして表示され続けます。
この設定を行うことで、古いAlertに埋もれる事なく、対処すべきAlertだけを表示することができるようになります。
Alert policyの作成
Slack通知やPager Duty通知などより高度な通知先設定が必要な場合はAlertメニューから通知チャネルを開き「Notification channel」から通知先を登録し
そのその通知先をAlert Policyに追加して利用します。
New Relic InfrastructureのAlert運用
New Relic Infrastructureでは設定の手間を減らし不要なAlertが表示され続けることを抑止し、通知から即座に対応手順を参照出来るように設計されています。
また、Slackなど外部ツールとの連携も簡単に行えるため、ChatOpsを始める際にも過度な作り込みを行う事なく運用を始める事ができます。
Alert疲れを解消しOpsメンバーが本来取り組むべき問題を見つけるためにぜひNew Relic InfrastructureのAlert設定を活用してください。
本ブログに掲載されている見解は著者に所属するものであり、必ずしも New Relic 株式会社の公式見解であるわけではありません。また、本ブログには、外部サイトにアクセスするリンクが含まれる場合があります。それらリンク先の内容について、New Relic がいかなる保証も提供することはありません。