どの組織も予算を管理し、進捗を把握しながら、より良い製品の提供を目指しています。しかし、気づかないうちにエンジニアリングの予算から多大なコストが日々静かに抜き取られています。私はこの隠れたコストを「見えない税金」と呼んでいます。これは政府によって徴収されるものではなく、企業自身が構築・運用しているデジタルシステム、特に内部の状況が見えにくい「オブザーバビリティが行き届いていないシステム」から生じているものです。
オブザーバビリティが行き届いていないシステムには、詳細なログや、きめ細かなメトリクス、包括的なトレースなどの、豊富で実用的なデータが十分に揃っていません。このような重要なテレメトリーが無い状態では、エンジニアは問題発生時に状況を把握できず、推測で対応したり、手動で一時的なログを追加せざるを得なくなります。こうした見落とされがちな部分に「見えない税金」が発生し、効率や収益性が少しずつ失われていきます。
従来の監視と最新のオブザーバビリティ(可観測性)の違いをきちんと意識することが大切です。監視は、「異常が発生したかどうか」を教えてくれます(「サーバーがダウンしている」など)。一方、オブザーバビリティは、「異常が発生した理由」(「どのAPI呼び出しが原因か?」など)を把握するのに役立ちます。ログやメトリクス、トレースを継続的に収集・分析することで、根本原因を特定するための診断ツールとして機能します。オブザーバビリティは、ビジネス戦略に欠かせない存在です。運用コストを戦略的な投資に変えることで、イノベーションに活用できるリソースを生み出すことができます。
手探りのシステム運用にひそむ隠れたコスト
デジタルシステムの全体像が把握できていないと、予算や製品目標に影響する大きな負担が生じてしまいます。
最も高価なリソースの浪費
開発者は、作業時間の約50%をデバッグに費やしています。こうした非効率性によって、一般的な企業では毎年数百万ドル規模の損失が生じています。調査によれば、開発者は作業が中断されるたびに約23分間も集中力を失い、「ツールが分散している」ことでも、1人あたり1日2.5時間分の時間が無駄になっています。ソフトウェアの欠陥を修正するコストは、発見が遅れるほど大幅に増加します。特に、本番環境でバグを修正する場合は、設計段階で修正する場合に比べて、コストが100倍にもなることがあります。その結果、本来はイノベーションに取り組むべき優秀な人材が、トラブルへの事後対応に追われてしまいます。
ダウンタイムによる多大なコスト
本番システムに障害が発生すると、1分ごとのダウンタイムが財務面および評判に重大な影響を及ぼします。オブザーバビリティが行き届いていないシステムでは、平均解決時間(MTTR)が大幅に延びてしまい、ユーザーの離脱や収益の大きな損失、さらにはブランドイメージの低下につながります。
ダウンタイムの平均コストは現在、1分あたり約9,000ドルまで増加しています。大規模な企業の場合、1分あたり16,000ドル、1時間あたり100万ドルを超えることもあります。
大規模なシステム停止の事例:
- デルタ航空(2024年7月):Crowdstrikeのソフトウェアアップデートの不具合により、デルタ航空は3億5,000万ドル以上の損失を被りました。
- Amazonプライムデー(2018年):ネットワークトラフィックの集中による技術的な問題で、多くの顧客が購入手続きを完了できず、Amazonは1分あたり最大120万ドルもの売上損失を被りました。
- T-Mobile(2020年):米国全土で12時間に及ぶ障害が発生し、数百万人に影響を与えました。原因は、機器の故障とネットワーク設定のミス、さらに潜在的なソフトウェアの不具合によるものでした。T-Mobileは、この障害によって2万件以上の911緊急通報が届かなかったことにより、米国当局の調査の結果、1,950万ドルの賠償金を支払うことで和解しています。
誤った投資と機会の損失
プロダクトリーダーは、戦略的な意思決定を行う際、正確なデータを頼りにしています。しかし、オブザーバビリティのないシステムでは、機能のパフォーマンスやユーザーの感じる遅延を正確に把握できず、まるで手探りで運用しているようなものです。その結果、誤った分野に投資してしまったり、備えが不十分なままでトラブルに直面するリスクが高まります。
データ品質の低下、つまり「データのダウンタイム」は、広範囲に及ぶコストのかかる問題です。Gartnerによると、企業は年間平均で1,290万ドルのコストを払う必要があり、別の推定では年間1,500万ドルに上るとされています。米国経済全体への累積的な影響は、年間で約3.1兆ドルに達しています。「1x10x100ルール」は、修正のタイミングによってコストが大幅に増加することを示しています。データ品質の問題を早期に修正すればコストは1倍で済みますが、エンドユーザーや意思決定の段階に至るまで放置してしまうと、ビジネスへの深刻な影響からコストが100倍にまで膨れ上がることもあります。
イノベーションの遅れは、イノベーションの喪失につながる
エンジニアリングチームが、本来防げたはずの問題の事後対応に時間を割くたびに、「次の目玉となる開発」やイノベーションの推進に充てるべき貴重な時間を失っていることになります。
技術的負債は、オブザーバビリティが行き届いていないシステムや一時的な修正から生じることが多く、IT予算に大きな負担となっています。マッキンゼーの調査によれば、IT部門の予算の約40%が、技術的負債の維持管理とその対策だけで消費されており、本来新製品開発用に割り当てられた10〜20%の予算も技術的負債への対応に充てられています。組織の約70%が、技術的負債がイノベーションを阻む大きな要因だと感じています。このように、イノベーションに充てるべきリソースが維持管理に回ってしまうことは、深刻な戦略的課題です。
オブザーバビリティの価値
組織は、「見えない税金」をいつまでも払い続ける必要はありません。オブザーバビリティに戦略的に投資すれば、企業はこの負担をスピード、イノベーション、そして持続的な成長を実現するための力に変えられます。
市場投入の迅速化とコスト削減
オブザーバビリティへの投資は、デバッグを効率化し、エンジニアが優先すべきタスクに時間を割けるようになることで、製品の提供スピードも向上します。また、平均解決時間(MTTR)を大幅に短縮して、インシデントの早期解決が可能となり、ユーザーやビジネスへの影響を抑えることができます。統合されたテレメトリーデータを実現した組織では、平均検出時間(MTTD)とMTTRが短縮され、ビジネスへの影響が大きい障害の発生も減少します。オブザーバビリティツールを導入している組織のうち、実に64%がMTTRが25%以上改善したと報告しています。
デリバリーの迅速化とコスト削減を実現するNew Relicの機能
- Response Intelligence:AIを統合したイシューページでは、リアルタイムの洞察を提供し、インシデントの詳細を一元化します。「何が影響を受けているか」の表示や、過去の事後分析との連携、因果分析による「潜在的な原因」の特定を通じて、MTTRの短縮に貢献します。
- Transaction360:各トランザクションに関連するサービス、テレメトリー、アラート、変更トラッカーを自動的にまとめて相関付け、ひとつのコンテキストビューで表示します。これによって、根本原因の分析を迅速化し、問題の予防的な検出が可能になります。
データを活かした成長戦略
オブザーバビリティを導入することで、主観的な判断に頼らず、データに基づいた製品の意思決定ができるようになります。機能の利用状況や、さまざまなユーザーグループごとのパフォーマンス、A/Bテストの実際の効果について、正確な洞察を得ることができます。また、サービスの負荷状況を可視化し、利用されていないリソースを特定することで、効率的なリソース配分を実現し、コストのかかる過剰なプロビジョニングを防ぐことができます。
データ活用による成長とリソース最適化を実現するNew Relicの機能
- Cloud Cost Intelligence:Amazon Web ServicesクラウドやKubernetesのリソースコストをリアルタイムで包括的に可視化します。これによって、コストの傾向や要因を深く把握し、情報に基づく意思決定や大幅なコスト最適化が可能になります。
- インフラストラクチャ監視:クラウドおよびオンプレミス環境全体のCPU、ネットワーク、ストレージなどのリソース使用率をリアルタイムで把握できるため、効果的なキャパシティプランニングを支援し、コスト高となる過剰なプロビジョニングを防ぐことができます。
開発者の働きやすさと定着率を高める
開発者は、単調で繰り返しの多い作業に時間を取られてしまい、本来注力すべき価値の高い仕事ができず、燃え尽き症候群に陥るリスクがあります。品質の低いソフトウェアやオブザーバビリティが行き届いていないシステムは、開発者の生産性や仕事への満足度を低下させます。デバッグの効率化と明確な洞察の提供によって、オブザーバビリティはこうした課題を直接解決し、より前向きで生産性の高い職場環境を実現します。その結果、生産性の向上や士気の強化、コストのかかる従業員の離職の抑制につながります。
開発者の働きやすさと生産性向上を実現するNew Relicの機能
- Service Architecture Intelligence:デジタル環境に関する情報をカタログ、スコアカード、チーム、マップとして統合し、ナレッジのサイロ化を解消します。これにより、コラボレーションが促進され、アーキテクチャの理解が進み、開発者の生産性を直接向上させます。
- eAPM:コードの追加なしに計装できるため、Kubernetesワークロードのパフォーマンス監視が簡単になります。高度なスパンサンプリング(各処理の区間ごとに重要な記録を抽出する仕組み)によって、素早い可視化とリアルタイムなデバッグが可能です。
「見えない税金」への支払いをやめて、さらなるスピードのために投資する
オブザーバビリティのないシステムから徴収される「見えない税金」は、組織のエンジニアリング予算とビジネス全体の健全性に、目に見える形で大きな負担となっています。この隠れたコストにより、さまざまな問題が生じます。これには、エンジニアリング時間の浪費、インシデント対応の遅れによるコストのかかるダウンタイム、低いデータ品質による誤った製品開発の意思決定、イノベーションの遅れによる機会費用の蔓延、そして壊滅的なリスクに曝される可能性の増加などがあげられます。
見えない税金の支払いを確実にやめ、スピードへの投資を始めるには、プロダクトリーダーは断固たる行動を取る必要があります。
- エンジニアリングとの積極的な連携:オブザーバビリティについて話し合い、それを製品への成功の要因として位置付けます
- 投資の推進:オブザーバビリティを戦略的投資として推進し、デバッグ時間の短縮やシステム停止コストの削減といった具体的なメリットを強調します
- 計画段階でのオブザーバビリティの優先:新機能の基本要件に計装機能を含め、パフォーマンスの監視方法と問題のトラブルシューティング方法を検討します
- クリティカルパスに戦略的に焦点を当てる:ビジネスの「最重要課題」、つまり主要なユーザーフロー、収益を生み出すサービス、または頻繁に問題を引き起こすシステムに対するオブザーバビリティの取り組みを優先します
- インパクトの測定:MTTRの改善やバグ修正に費やした開発者の時間など、わかりやすい成功のメトリクスを定義して、ROIを実証し、継続的な投資を正当化します
組織は、これらのレコメンデーションを採用し、New Relicのような包括的なオブザーバビリティプラットフォームを活用することで、運用上の課題を戦略的優位性へと変えることができます。見えない税金を取り除き、貴重なリソースを解放することで、イノベーションの推進、製品リリースの迅速化、デジタル経済における競争優位性の確保を実現することができます。
本ブログに掲載されている見解は著者に所属するものであり、必ずしも New Relic 株式会社の公式見解であるわけではありません。また、本ブログには、外部サイトにアクセスするリンクが含まれる場合があります。それらリンク先の内容について、New Relic がいかなる保証も提供することはありません。