New Relic サービスレベル管理のセカンドステップ (前編)

本ポストでは、New Relic のサービスレベル管理機能にて、サービスレベル (SLI/SLO) の表示内容について記載いたします。
スタートガイドや SLIとSLO の作成などのドキュメントをご参考にサービスレベルを作成いただいたあとで、表示されたデータの収集方法などについて質問をいただくケースがございます。作成方法を簡単に振り返りつつ、作成後のページの各ウィジェットの計算式や途中で SLI の内容を変更した場合の挙動などについて記載いたします。

また、続編となります New Relic サービスレベル管理のセカンドステップ (後編) では、サービスレベル関連アラートについて記載します。アラートの内容につきまして、後編をご参照ください。

SLI/SLO 設定例

SLI/SLO の作成例を簡単に紹介します。ここではすでに存在する Synthetic Monitoring の Ping モニター (ポーリング間隔 1分、1ロケーション、名前: My URL sample) に関する SLI を設定例として作成します。

プラットフォーム UI > Service Levels ページから右上の「Add a service level」にて、新規作成します。

1. Set SLI: Choose data ステップ

ターゲットエンティティを選択します。ここでは Syntheic Monitor の My URL sample を探して選択します。

Entity Type = Syntheitc monitor や文字列フィルターを利用すると検索が容易になります。

2. Set SLI: Configure queries ステップ

次に評価基準用のクエリを設定します。

Success を選択後に Customize SLI を選択すれば、デフォルト条件を編集できます。カスタマイズを辞めたい場合は、Switch to SLI presets にて戻すことができます。

ここではデフォルト Good 条件の「応答が成功」に「応答時間 2.4秒以内」という条件を追加します。編集画面のクエリチャートで Valid (すべての試行) と Good (SLI 条件を満たす試行) に多少のズレができ、すべての試行が Good ではなくなっています。

3. Set SLO: Time window and target percentage ステップ

次に SLO 設定で、期間とターゲット(基準値)を設定します。

評価期間は 1 day, 7 days, 28 days から選択でき、ターゲットは 0 ~ 100% の数字を 0.00001 刻みで設定可能です。

ここでは説明の都合上期間を 7日、ターゲットを 98.5% とします。

4. Name, tag and describe this service level ステップ

最後に作成した Service Level に名前と説明を設定します。また、タグを設定することも可能です。

ここに設定されるタグは、このサービスレベルに対して、付与されるタグです、元となった Synthetic モニターに設定されるわけではありません。

Summary ページの表示内容

Service Level の作成後、一覧から作成したサービスレベルを選択すると、下記のように No value と記載された Summary ページが表示されます。
No value の理由とともにいくつかの表示内容の意味を記載します。

アプリヘッダー部分

まずは左上部のアプリヘッダー部分 (緑点線枠) です。上段に、グレーのエンティティアイコン、サービスレベルの名前、お気に入りボタン、Tags、Metadata、Workloads と並び、下段に User experience および Engineering operations と関連マップコンテンツ要素が表示されます。

エンティティアイコンは、UI の共通表示項目で、エンティティのヘルスステータスを意味します。グレーはアラートが未設定であることを意味します。緑は、設定されているアラートに関連するインシデントなし、黄色は警告インシデント、赤はクリティカルインシデントがあることを示しています。 ref. エンティティのヘルスステータス

Tags には、作成時に追加したタグ、SLO の期間やターゲット値などのデフォルトタグが記載されます。注目点としては、nr.associatedEntityGuid の項目で、この GUID は関連対象の GUID で、ここでは Synthetic Monitor の Ping モニター (My URL sample) の GUID となります。

一方で、Metadata に記載される Entity guid は、このサービスレベルに割り振られた GUID が表示されます。

関連マップコンテンツ要素の User experience と Engineering operations は、(Summary の 2つ下の) Map にリンクされます。

User experience の Good 表示は、User experience に属するエンティティでインシデントが発生していないことを意味しており同様に Engineering operations の Good 表示は、Engineering operations に属するエンティティでインシデントが発生していないことを意味します。

この例では、User experience のエンティティは Synthetic Monitor の Ping モニター (My URL sample) になっているので、Synthetic Monitor に関して設定されたアラートインシデントが発生した場合、表示が変わります。

Engineering operations のエンティティは、このサービスレベルとなっているので、このサービスレベルに関連するアラートインシデントが発生した場合 Good ではなくなります。

Map ではエンティティを関連性 (is called by や hosts など) とともに追加することもできます。下記は左が初期、右図が障害中のエンティティと Workload を追加した場合の例です。

次は右上部のアプリヘッダー部分 (紫点線枠) でタイムピッカー、編集ボタン、アクションコントロールボタン、ダッシュボード追加ボタンがあります。

本ページにおいて、タイムピッカーを変更すると、下図の SLI compliance (ビルボードおよび時系列グラフ) および Error budget と Good/Bad 時系列グラフの期間が変わります。

編集ボタンで、先ほど作成した SLI/SLO の値を変更することができます。

アクションコントロールボタンでは、Create an alert、Analyze、Delete 処理を行うことができます。

Add to Dashboard では、下部の４つのウィジェットをもつダッシュボードを作成することができます。

Good レスポンスのプリセットウィジェットの Query 内容

SLO compliance (%) (Good version)

View Query で表示される NRQL は下記です。

FROM Metric SELECT clamp_max(sum(newrelic.sli.good) / sum(newrelic.sli.valid) * 100, 100) as 'SLO compliance (%)'
WHERE entity.guid = 'MzgzNDY4N3xFWFR8U0VSVklDRV9MRVZFTHw1ODYwMDI'

clamp_max 関数を除くと少し見やすくなり、単純に Good イベント/全イベントの割合であることに気がつきます。 SLI の達成率という方ががわかりやすいかもしれません。

SELECT sum(newrelic.sli.good) / sum(newrelic.sli.valid) * 100 as 'SLO compliance (%)'
FROM Metric
WHERE entity.guid = 'この SLI GUID'

Metric をイベントソースとしており、このサービスレベルが作成されたあとに作られた newrelic.sli.valid および newrelic.sli.good (bad) を用いています。 NRQL の集計期間 (SINCE/UNTIL) の明示的な記載はありませんが、time picker にて指定された時間で行われます。

clamp_max 関数またはこのあと登場する clamp_min 関数は、N 以上 (または N 以下) の値の場合は、すべて N を返すという役割の関数です。 Valid や Good (Bad) の条件は任意入力可能なため、100% や 0% 以下の値になってしまう可能性があります。そのような値の場合は、意味のない値であるため、この関数にて 0 ~ 100 % の範囲になるようにされます。

SLI attainment over time (%) (Good version)

同様に clamp_max 関数を省くと下記の形で、Good イベントの割合に関する時系列グラフです。

SELECT sum(newrelic.sli.good) / sum(newrelic.sli.valid) * 100 AS 'SLO compliance', 98.5 as 'SLO target'
FROM Metric WHERE entity.guid = 'この SLI GUID'
UNTIL 2 minutes AGO TIMESERIES AUTO

TIMESERIES は AUTO なので、表示期間によってプロット幅は変化します。プロット幅ごとの期間での達成率を描画したものとなります。

Remaining error budget (%) (Good version)

次にエラーバジェットですが、これは "残りエラーバジェット率" に対応します。

同じように clamp_max/min 関数を除くと下記のような NRQL で計算されます。

SELECT (sum(newrelic.sli.good) / sum(newrelic.sli.valid) * 100 - 98.5) / (100 - 98.5) * 100 as 'Remaining error budget (%)'
FROM Metric WHERE entity.guid = 'この SLI GUID'

分子は指摘期間の Good 率 (SLI 達成率) から SLO目標 (98.5) を引いた値なので、指定した期間での残りのエラーバジェットに該当します。

分母は 100 から SLO目標 (98.5) を引いた値なので、初期のエラーバジェットになります。

よって、残りのエラーバジェット/初期エラーバジェット*100 で、残りエラーバジェット率を計算したものとなります。

Good and bad events (Good version)

最後は Good and bad events ですが、単純な Good イベントと Bad イベント (全イベント - Good イベント) の時系列グラフです。

SELECT sum(newrelic.sli.good) AS 'Good', sum(newrelic.sli.valid) - sum(newrelic.sli.good) AS 'Bad'
FROM Metric WHERE entity.guid = 'この SLI GUID'
UNTIL 2 minutes AGO TIMESERIES AUTO

Bad レスポンスのプリセットウィジェットの Query 内容

SLI 作成時に Good response ではなく、Bad response を選択した場合の各ウィジェットの NRQL についても紹介します。しかし、Good イベント = Valid (全) イベント - Bad イベントに置き換えられるだけなので、特に解説は不要と思います。

SLO compliance (%) (Bad version)

SELECT (sum(newrelic.sli.valid) - sum(newrelic.sli.bad)) / sum(newrelic.sli.valid) * 100 as 'SLO compliance (%)'
FROM Metric WHERE entity.guid = 'この SLI GUID'

SLI attainment over time (%) (Bad version)

SELECT (sum(newrelic.sli.valid) - sum(newrelic.sli.bad)) / sum(newrelic.sli.valid) * 100 AS 'SLO compliance', 98.5 as 'SLO target'
FROM Metric WHERE entity.guid = 'この SLI GUID'
UNTIL 2 minutes AGO TIMESERIES AUTO

98.5 は SLO目標値です

Remaining error budget (%) (Bad version)

SELECT ( (sum(newrelic.sli.valid) - sum(newrelic.sli.bad)) / sum(newrelic.sli.valid) * 100 ) - 98.5, 0 / (100 - 98.5)) * 100 as 'Remaining error budget (%)'
FROM Metric WHERE entity.guid = 'この SLI GUID'

98.5 は SLO目標値です

Good and bad events (Bad version)

SELECT sum(newrelic.sli.valid) - sum(newrelic.sli.bad) AS 'Good', sum(newrelic.sli.bad) AS 'Bad'
FROM Metric WHERE entity.guid = 'この SLI GUID' UNTIL 2 minutes AGO TIMESERIES AUTO

SLI/SLO を編集した場合の挙動

作成後に SLI 条件や SLO ターゲット (目標値) を変更した場合、変更後のイベント (newrelic.sli.valid または newrelic.sli.good, bad) は変更後の設定内容で算出されるようになります。しかし、当然ながら過去の算出値は変化しません。

Metric を確認すると変更時刻 (sli.updatedAt) が変わっていることが確認できますが sli.id や sli.guid は変更されません。

ここまで、サービスレベルの各データは作成後から生成される newrelic.sli.valid または newrelic.sli.good, bad を元に算出されていることを見てきましたが、関連値を算出する NRQL には、変更時刻などは含まれていませんでした。

これは少し丁寧に理解する必要がありますが、評価式では変更後の SLO 設定値とそれまでの SLI 条件で評価された newrelic.sli.valid および newrelic.sli.good (bad) イベントの数を利用して、現在の値を算出します。

例えば、3日前に SLI 条件を変更したとしましょう。

7日前までの期間で表示される SLO compliance データは、

7~4日前のデータは古い SLI 条件の newrelic.sli.{valid,good,bad} で算出されたもので

変更後の直近 3日間のデータは新しい条件で算出されたデータが利用されることになります。

同じ例で 3日前に SLO 目標値を変更したとしましょう。

利用される newrelic.sli.{valid,good,bad} は上記と同じですが、計算式内で利用される SLO目標は、変更後の SLO 目標値で計算されることになります。

SELECT (sum(newrelic.sli.good) / sum(newrelic.sli.valid) * 100 - 現在設定されているSLI目標) / (100 - 現在設定されているSLI目標) * 100 as 'Remaining error budget (%)'
FROM Metric WHERE entity.guid = 'この SLI GUID'

変更後を行った場合、算出式自体には変化は、ありませんが Valid, Good, Bad イベントはそのイベントが発生した際の SLI 条件で評価されたイベントとなります。本点を考慮いただき、データを解釈いただければと思います。

後編ではアラート設定に関する記載しております、アラートの内容に関してご興味ございましたらご確認ください。

By Kengo Nagashima, Senior Technical Support Engineer

本ブログに掲載されている見解は著者に所属するものであり、必ずしも New Relic 株式会社の公式見解であるわけではありません。また、本ブログには、外部サイトにアクセスするリンクが含まれる場合があります。それらリンク先の内容について、New Relic がいかなる保証も提供することはありません。

New Relic サービスレベル管理のセカンドステップ (前編)

780+ インテグレーションを導入し、スタック監視を無料で開始しましょう

詳細を見る

In this article

New Relic サービスレベル管理のセカンドステップ (前編)

データの収集と見方

SLI/SLO 設定例

1. Set SLI: Choose data ステップ

2. Set SLI: Configure queries ステップ

3. Set SLO: Time window and target percentage ステップ

4. Name, tag and describe this service level ステップ

Summary ページの表示内容

アプリヘッダー部分

関連ウィジェット

Good レスポンスのプリセットウィジェットの Query 内容

SLO compliance (%) (Good version)

SLI attainment over time (%) (Good version)

Remaining error budget (%) (Good version)

Good and bad events (Good version)

Bad レスポンスのプリセットウィジェットの Query 内容

SLO compliance (%) (Bad version)

SLI attainment over time (%) (Bad version)

Remaining error budget (%) (Bad version)

Good and bad events (Bad version)

SLI/SLO を編集した場合の挙動

New Relic サービスレベル管理のセカンドステップ (前編)

データの収集と見方

SLI/SLO 設定例

1. Set SLI: Choose data ステップ

2. Set SLI: Configure queries ステップ

3. Set SLO: Time window and target percentage ステップ

4. Name, tag and describe this service level ステップ

Summary ページの表示内容

アプリヘッダー部分

関連ウィジェット

Good レスポンスのプリセットウィジェットの Query 内容

SLO compliance (%) (Good version)

SLI attainment over time (%) (Good version)

Remaining error budget (%) (Good version)

Good and bad events (Good version)

Bad レスポンスのプリセットウィジェットの Query 内容

SLO compliance (%) (Bad version)

SLI attainment over time (%) (Bad version)

Remaining error budget (%) (Bad version)

Good and bad events (Bad version)

SLI/SLO を編集した場合の挙動

タグ

関連記事