開発者とエンジニアは、3つの重要なビジネス、および技術的な課題の解決によくオブザーバビリティを使用します。ダウンタイムの短縮、レイテンシの短縮、そして効率性の向上です。
システム停止の頻度、平均検出時間(MTTD)、平均復旧時間(MTTR)が、セキュリティおよびITインシデント管理で使用される一般的なサービスレベルのメトリクスです。
ここでは、サービスレベル指標のベンチマークについて考察します。ビジネスインパクトの大きさごとに、システム停止の頻度、MTTDおよびMTTR、オブザーバビリティソリューションを導入してからのMTTRの変化、どのオブザーバビリティ機能でMTTD/MTTRの短縮が予測されるか、そしてシステム停止に伴うコストについて見ていきましょう。
サービスレベル指標のハイライト:
ビジネスインパクトの大きいシステム停止が週1回以上発生
ビジネスインパクトの大きいシステム停止の検知に30分以上を要する
ビジネスインパクトの大きいシステム停止の解決に30分以上を要する
重要なビジネスアプリケーションのシステム停止によるダウンタイム1時間あたり10万ドル超を支出
オブザーバビリティを導入してからMTTRが改善
調査の結果によると、フルスタックオブザーバビリティを実現している組織では、システム停止の頻度が減少し、MTTDとMTTRが短縮し、システム停止コストが減少しており、オブザーバビリティによりサービスレベル指標が改善しています。
フルスタックオブザーバビリティ
システム停止の減少
MTTDの短縮
MTTRの短縮
システム停止に伴うコストの
削減
ROIの
拡大
システム停止の頻度
顧客とエンドユーザーに影響するシステム停止は、どの程度の頻度で発生しているのでしょうか?調査結果は以下の通りです。
- システム停止は現在も頻発しているが、週に1回以上発生すると回答した回答者の数は、ビジネスインパクトの大きいシステム停止では対前年比(YoY)で36%減少し、ビジネスインパクトが中程度のシステム停止では52%、ビジネスインパクトが少ないシステム停止では63%減少
- ビジネスインパクトの少ないシステム停止がもっとも頻発(53%が週に1回以上と回答)
- ビジネスインパクトが大きいシステム停止の発生頻度はもっとも少ない(月2〜3回以下)ものの、それでもほぼ3分の1(32%)が週1回以上、13%が1日1回以上の発生を経験
システム停止の頻度が高い (週1回以上) | システム停止の頻度が低い (月2〜3回以下) | |
---|---|---|
ビジネスインパクトが大きい | システム停止の頻度が高い (週1回以上)31.9% | システム停止の頻度が低い (月2〜3回以下)61.6% |
ビジネスインパクトが中程度 | システム停止の頻度が高い (週1回以上)41.4% | システム停止の頻度が低い (月2〜3回以下)54.3% |
ビジネスインパクトが小さい | システム停止の頻度が高い (週1回以上)52.6% | システム停止の頻度が低い (月2〜3回以下)43.6% |
システム停止の頻度が相対的に高いことを考えると、手動の作業やインシデントチケットがこれらのシステム停止を検知する手段であることがいかに多いかという調査結果は注目に値します。
昨年同様、フルスタックオブザーバビリティを実現している(当レポート内の定義において)組織は、フルスタックオブザーバビリティを持たない組織よりも一貫してシステム停止の頻度が少なくなっています。
フルスタックオブザーバビリティを実現している | フルスタックオブザーバビリティを実現していない | |
---|---|---|
ビジネスインパクトが大きい | フルスタックオブザーバビリティを実現している66.9% | フルスタックオブザーバビリティを実現していない59.0% |
ビジネスインパクトが中程度 | フルスタックオブザーバビリティを実現している60.8% | フルスタックオブザーバビリティを実現していない51.1% |
ビジネスインパクトが小さい | フルスタックオブザーバビリティを実現している48.2% | フルスタックオブザーバビリティを実現していない41.3% |
ビジネスインパクトの大きいシステム停止が週1回以上発生
役割別の考察
実務担当者は、ビジネスインパクトの大きいシステム停止を週1回以上経験しているとの回答がもっとも多くなりました(34%)。非エグゼクティブマネージャーは、システム停止の頻度は月2〜3回以下であるとの回答がもっとも多くなりました(74%)。
地域別の考察
アジア太平洋で、ビジネスインパクトが大きいシステム停止の頻度がもっとも高く(41%が週1回以上と回答)、一方で北米ではもっとも低く(75%が月2〜3回以下と回答)なりました。
業界別の考察
ビジネスインパクトが大きいシステム停止の頻度がもっとも高かったのは、エネルギー/ユーティリティ業界(40%が週に1回以上と回答)、次いで小売/消費者(36%)でした。もっとも低かったのは、非営利組織(77%が月2〜3回以下と回答)、次いで政府機関(70%)でした
平均検出時間(MTTD)
システム停止の平均検出時間と、セキュリティ、ITインシデント管理に使用される一般的なサービスレベルでのメトリクスについて、調査結果では以下のことが示されました。
- すべてのビジネスインパクトのレベルにおいて、もっとも多かったMTTDは5〜30分
- ビジネスインパクトが大きいシステム停止は、検知にもっとも時間がかかる傾向が高く、44%が30分以上、21%が60分以上を要すると回答
- MTTDは、すべてのインパクトレベルにおいて、対前年比で全般的に改善(例えば、ビジネスインパクトが大きいシステム停止は対前年比で8%短縮)
最短のMTTD (30分以下) |
最長のMTTD (30分超) |
|
---|---|---|
ビジネスインパクトが大きいシステム停止 | 最短のMTTD48.3% | 最長のMTTD43.5% |
ビジネスインパクトが中程度のシステム停止 | 最短のMTTD50.9% | 最長のMTTD42.7% |
ビジネスインパクトが小さいシステム停止 | 最短のMTTD60.4% | 最長のMTTD33.6% |
本レポートで定義するところの、フルスタックオブザーバビリティを実現していると答えた回答者は、今年も最短のMTTD(30分未満)を経験している傾向がもっとも高くなりました。また、MTTDについても大幅な改善が見られます。例えば、フルスタックオブザーバビリティを実現している回答者は、ビジネスインパクトの大きいシステム停止を30分以内で検知する傾向が、フルスタックオブザーバビリティを実現していない回答者と比較して19%高くなりました。
フルスタックオブザーバビリティを実現している | フルスタックオブザーバビリティ実現していない | |
---|---|---|
ビジネスインパクトが大きいシステム停止 | フルスタックオブザーバビリティを実現している54.0% | フルスタックオブザーバビリティ実現していない45.5% |
ビジネスインパクトが中程度のシステム停止 | フルスタックオブザーバビリティを実現している54.4% | フルスタックオブザーバビリティ実現していない49.2% |
ビジネスインパクトが小さいシステム停止 | フルスタックオブザーバビリティを実現している65.7% | フルスタックオブザーバビリティ実現していない57.8% |
さらに、導入した機能が多いほど、MTTDは短縮されていました。例えば、自社組織が現在5つ以上の機能を導入しているとした回答者は、ビジネスインパクトの高いシステム停止を30分以内に検知することが、現在1〜4つの機能を導入している回答者に比べて40%多い傾向にありました。
ビジネスインパクトの大きいシステム停止の解決に60分以上かかると回答
役割別の考察
IT意思決定者(ITDM)の回答では、MTTDが短い傾向がもっとも多く、51%がビジネスインパクトが大きいシステム停止の検知に30分以内と回答、対して実務担当者では47%でした。
地域別の考察
アジア太平洋では、ビジネスインパクトが小さいシステム停止のMTTDが最短(65%が30分以内と回答)、一方で、北米ではビジネスインパクトが中程度/大きいシステム停止のMTTDが最短となりました(約60%が30分以内と回答)
組織規模別の考察
大規模組織は、ビジネスインパクトの大きいシステム停止のMTTDが、小規模(47%)、中規模組織(46%)と比較してやや短い傾向にありました(50%が30分以下と回答)
業界別の考察
ビジネスインパクトの大きいシステム停止のMTTDが最短だったのは、教育業界(61%が30分以下と回答)、次いで医療/製薬(58%)でしたビジネスインパクトの大きいシステム停止のMTTDが最長だったのは、非営利組織(69%が30分以上)、次いで小売/消費者業界(55%)でした
平均復旧時間(MTTR)
セキュリティおよびITインシデント管理におけるもう1つの一般的なサービスレベル指標であるMTTRについても、同様の傾向が見られます。
- 大多数が、すべてのビジネスインパクトの程度において30分以上のMTTR
- ビジネスインパクトの大きいシステム停止は、解決にもっとも時間がかかる傾向があり、60%が解決までに30分以上、34%が60分以上かかると回答
- MTTRは対前年比で全般的に改善(例えば、ビジネスインパクトが大きいシステム停止では、対前年比でMTTRは26%短縮)
最短のMTTR (30分以下) |
最長のMTTR (30分超) |
|
---|---|---|
ビジネスインパクトが大きいシステム停止 | 最短のMTTR30.4% | 最長のMTTR60.2% |
ビジネスインパクトが中程度のシステム停止 | 最短のMTTR35.6% | 最長のMTTR57.6% |
ビジネスインパクトが小さいシステム停止 | 最短のMTTR46.1% | 最長のMTTR48.0% |
本レポートで定義するところのフルスタックオブザーバビリティを実現している回答者は、ここでもMTTRが最短である(30分未満)傾向がもっとも高くなりました。また、MTTRについても、もっとも大幅な改善が見られます。例えば、フルスタックオブザーバビリティを実現している回答者は、ビジネスインパクトの大きいシステム停止を30分以内で解決する傾向が、フルスタックオブザーバビリティのない回答者と比較して18%高くなりました。
フルスタックオブザーバビリティを実現している | フルスタックオブザーバビリティ実現していない | |
---|---|---|
ビジネスインパクトが大きいシステム停止 | フルスタックオブザーバビリティを実現している34.0% | フルスタックオブザーバビリティ実現していない28.7% |
ビジネスインパクトが中程度のシステム停止 | フルスタックオブザーバビリティを実現している36.3% | フルスタックオブザーバビリティ実現していない35.3% |
ビジネスインパクトが小さいシステム停止 | フルスタックオブザーバビリティを実現している47.7% | フルスタックオブザーバビリティ実現していない45.2% |
さらに、5つ以上の機能を導入した回答者のMTTRが短縮されました。例えば、自社組織が現在5つ以上の機能を導入しているとした回答者は、ビジネスインパクトの高いシステム停止を30分以内に検知することが、現在1〜4つの機能を導入している回答者に比べて42%多い傾向にありました。
ビジネスインパクトの大きいシステム停止の解決に60分以上を要する
役割別の考察
ITDMは、システム停止の解決に30分以上かかるとの回答が、実務担当者よりも多い傾向にありました
地域別の考察
アジア太平洋では、ビジネスインパクトが小さい/中程度のシステム停止を30分以内で解決するとの回答が多い傾向にありました。欧州と北米では、ビジネスインパクトが大きいシステム停止を30分以内で解決するとの回答がやや多くなりました
業界別の考察
ビジネスインパクトが大きいシステム停止のMTTRが最短なのは教育業界で(42%が30分以内と回答)、次いで小売/消費者(33%)でした。ビジネスインパクトが大きいシステム停止のMTTRがもっとも遅いのは非営利組織(69%が30分以上と回答)、次いで金融/保険(66%)でした
Total downtime
Given the relative frequency of outages and time to detect and resolve them as noted above, this adds up to considerable downtime for organizations. The data show that:
- The median annual downtime was 23 hours.
- Those with a mature observability practice experienced 15 hours of downtime per year on average compared to 23 for those whose organizations aren’t as mature.
- Those that had achieved full-stack observability experienced 20 hours of downtime per year on average compared to 26 for those whose organizations hadn’t achieved full-stack observability.
役割別の考察
ITDMは、システム停止の解決に30分以上かかるとの回答が、実務担当者よりも多い傾向にありました
地域別の考察
アジア太平洋では、ビジネスインパクトが小さい/中程度のシステム停止を30分以内で解決するとの回答が多い傾向にありました。欧州と北米では、ビジネスインパクトが大きいシステム停止を30分以内で解決するとの回答がやや多くなりました
業界別の考察
ビジネスインパクトが大きいシステム停止のMTTRが最短なのは教育業界で(42%が30分以内と回答)、次いで小売/消費者(33%)でした。ビジネスインパクトが大きいシステム停止のMTTRがもっとも遅いのは非営利組織(69%が30分以上と回答)、次いで金融/保険(66%)でした
システム停止に伴うコスト
収益上重要なビジネスアプリケーションのシステム停止が組織に与えるコストを、ダウンタイム1時間あたりの平均で調査しました。さらに、ビジネスインパクトが大きいシステム停止の頻度、ダウンタイム合計(MTTDとMTTR)、年間のシステム停止に伴うコストを試算しました。
システム停止に伴うコスト
重要なビジネスアプリケーションのダウンタイム1時間あたりの平均コストに関する調査回答から、以下のことが分かりました。
- 5分の3(61%)の回答者が、1時間あたりのダウンタイムのコストは少なくとも10万ドル以上、32%が50万ドル以上、21%が100万ドル以上と回答
- 4分の1(25%)が、1時間あたりのダウンタイムのコストは10万ドル未満と回答
- 特筆すべき点として、12%はこれらのシステム停止のコストを把握していない
さらに、システム停止に伴うコストは、フルスタックオブザーバビリティ、または成熟したオブザーバビリティを実践していない回答者でより高くなっています。例えば、フルスタックオブザーバビリティを実現している、または本レポートで定義するところの成熟したオブザーバビリティを実践している組織の回答者の42%が、重要なビジネスアプリケーションのシステム停止に伴うコストはダウンタイム1時間あたり25万ドル未満と回答したのに対し、フルスタックオブザーバビリティを実践していない回答者では35%、成熟したオブザーバビリティを実践していない回答者では37%となっています。
システム停止のダウンタイム1時間あたりのコストは10万ドル以上と回答
役割別の考察
エグゼクティブと実務担当者は、システム停止に伴うコストを50万ドル以上と回答する傾向が多く、一方で非エグゼクティブマネージャーは10万ドル以下と回答する傾向が多く見られました。当然のことながら、実務担当者(14%)には、ITDM(7%)に比べて不明と回答する傾向が多く見られました
地域別の考察
北米の回答者は、システム停止に伴うコストは10万ドル以下(36%)、また不明である(20%)と回答する傾向が多く、一方でアジア太平洋と欧州の回答者では、50万ドル以上(それぞれ38%と35%)との回答が多く見られました
組織規模別の考察
大規模組織は、システム停止に伴うコストを50万ドル以上(38%)と回答する傾向が、小規模組織(17%)と中規模組織(25%)に比べて多く見られました
業界別の考察
システム停止に伴うコストを50万ドル以上とする回答がもっとも多かったのは、エネルギー/ユーティリティ業界の回答者(52%)で、次いで非営利組織(46%)でした
システム停止に伴う年間のコスト
ビジネスインパクトの大きいシステム停止の頻度、システム停止時間(MTTD/MTTR)、システム停止に伴うコストに関する全回答において、ビジネスインパクトの大きいシステム停止の年間コストの中央値は775万ドルでした。
本レポートで定義するところのフルスタックオブザーバビリティを実現している組織の回答者では、システム停止コストの中央値は年間617万ドルだったのに対し、フルスタックオブザーバビリティを実現していない回答者では983万ドルでした。これは年間366万ドルのコスト削減となります。
システム停止に伴うコスト(年間)の中央値 (オブザーバビリティを実装していない場合)
システム停止に伴うコスト(年間)の中央値 (オブザーバビリティを実装している場合)
37%低下
地域別の考察
アジア太平洋(1,907万ドル)のシステム停止に伴う年間のコストの中央値は、欧州(842万ドル)、北米(120万ドル)と比較して圧倒的に高額でした。
組織規模別のインパクト
大規模組織(1,204万ドル)のシステム停止に伴う年間のコストの中央値は、中規模組織(463万ドル)、小規模組織(184万ドル)と比較して圧倒的に高額でした
業界別の考察
システム停止に伴う年間のコストの中央値は、エネルギー/ユーティリティ業界がもっとも高く(3,431万ドル)、次いで非営利組織(2,787万ドル)でした。一方で、政府機関が最小(131 万ドル)でした
MTTRの変化
オブザーバビリティソリューション導入以降、自社組織のシステム停止のMTTRがどのように変化したかについて、調査を行いました。結果は以下の通りです。
- 約3分の2(65%)が、自社のMTTRはある程度改善したと回答(31%が、25%以上の改善と回答)
- MTTRがある程度悪化したと回答したのは16%のみ
- 変化なしと回答したのは14%のみ
MTTRのもっとも大幅な改善は、以下のようないくつかの要因との相関性が高いと考えられます。
- 5つ以上のオブザーバビリティ機能を導入している:68%(導入数がゼロの場合は40%、1〜4つの機能を導入している場合は45%)
- 5つ以上のオブザーバビリティ実践の特性を備えている:69%(1〜4つの特性を備えている場合は61%)
- 本レポートで定義するところの、成熟したオブザーバビリティを実践している:68%(実践していない場合は64%)(25%以上のMTTRの改善を経験している傾向が56%高まる)
- 本レポートで定義するところの、フルスタックオブザーバビリティを実現している:68%(実現していない場合は63%)(25%以上のMTTRの改善を経験している傾向が27%高まる)
- オブザーバビリティに年間で10万ドル以上を支出している:67%(年間で10万ドル以下を支出の場合は62%、支出なしの場合は17%で、支出が多いほど改善の傾向が高まる)
オブザーバビリティから最大の価値を得ている(250万ドル以上)とした回答者からは、オブザーバビリティを導入以降、MTTRが改善したとの回答がより多く見られました。
オブザーバビリティの導入によりMTTRが改善
地域別の考察
アジア太平洋(61%)では、欧州(68%)、北米(67%)に比べ、MTTRが改善したとの回答がもっとも少ない傾向が見られました
組織規模別の考察
大規模組織(68%)では、小規模組織(59%)、中規模組織(60%)に比べ、オブザーバビリティを導入してからMTTRが改善したとの回答がもっとも多く見られました
業界別の考察
オブザーバビリティを導入してからMTTRの改善が見られたのは、非営利組織でもっとも多く(79%)、次いでエネルギー/ユーティリティ(78%)、医療/製薬(76%)でした
機能別のMTTD/MTTRの予測要因
データから、特定の機能(ログ管理、Kubernetesモニタリング、アラート、インフラストラクチャ監視、エラー追跡、ダッシュボード、モバイル監視)とMTTD/MTTRの短縮(30分未満)には、明らかな関連性があることが予測されます。これらの機能のうち、ログ管理は有意水準5%の範囲で統計的に有意です。