堅牢なデータパイプラインのオブザーバビリティによるエンタープライズデータプログラムの実現

顧客や市場の深い理解を元にして戦略を立てる、”インサイトドリブン”のアプローチを採用する組織はますます増えています。データ活用は拡大し進化しています。かつては企業の業績報告に限定されていましたが、その壁を越え現在では、顧客の獲得や拡大、継続利用や解約などのビジネス活動に実用的な領域まで拡大しています。

これらのビジネスに不可欠な業務の遂行にデータ分析の正確性と完全性は欠かせません。日次、週次のダッシュボードを公開するだけでは不十分で、企業の利用するエンタープライズアプリケーション（CRM、カスタマーサポート、エンタープライズマーケティングソリューションなど）にデータを連携し高度な分析を行なっています。そのため、システムからシステムへデータを連携するパイプラインを常時動かし、高品質で正確なデータを元に正確なインサイトを確実に提供できるようにしておかなければいけません。

ビジネスへの影響とデータパイプラインのSLA

データパイプラインの信頼性が低いと、次のようなビジネス活動にリスクを抱えてしまいます。

適切なデータがないので、マーケティングキャンペーンを推進できない
顧客のことを360度全ての観点で把握できる情報がないと顧客から能力不足と判断され、解約につながる
顧客に次の最適な提案ができない

これらのリスクへの対応として、企業はEDW（エンタープライズデータウェアハウス）が提供するデータセット、ダッシュボード、レポート、実用的なインサイトに関してサービスレベル契約（SLA）の確立を進めています。SLA不履行によるビジネスへの影響は、成熟したデータプログラムでは特に増大し、多大な財務的影響をもたらします。

データパイプラインのオブザーバビリティとは、およびその仕組み

データパイプラインのオブザーバビリティとは、データパイプラインとデータ品質のステータスを追跡、監視し、警告する機能を指します。

データパイプラインは、ソースシステムからデータを取り込むエンドツーエンドのプロセスから、データをレポートやビジネス活動に利用できるようにするなど、多岐にわたります。この段階には次のもの（ソースからEDWへのデータの取り込み、生データのさらなる絞り込み、標準化、正規化、および最終的にはデータセットのレポート）が含まれます。

データ障害が発生した場合、エンドツーエンドのデータパイプラインの問題箇所を理解することで、より迅速な優先順位付けとデータのダウンタイムを削減できます。データのダウンタイムの全コストには、以下のものがあります。

データのバグ修正にかかる時間数
データパイプラインのデータ更新を実行する時間
データ更新を行うデータインフラストラクチャのコストの計算
ビジネス上の意思決定の停滞による機会損失

企業がデータパイプラインのオブザーバビリティを必要とする理由

最新のデータプログラムにはエンドツーエンドのデータパイプラインの可視性が不可欠です。データの状態に関するインサイトとプロアクティブな介入の機会が得られ、ビジネスに実際に影響を及ぼすデータのダウンタイムが発生する前に、データパイプラインの継続的な整合性を確保できるためです。

データダウンタイムとは、データパイプラインの実行後、その結果のデータセットが不完全、不正確、または予定どおりに利用できないため、サービスレベル契約（SLA）を満たしていない期間を指します。

データパイプラインのオブザーバビリティから得られるインサイトは、パイプラインのどの部分が遅延の原因となっているかを特定する上で役に立ちます。これにより、チームはクエリや有向非巡回グラフ（DAG）を微調整して再設計できるようになり、ビジネス上のインサイトを得るまでの時間が短縮されます。

実用的なインサイトのダウンタイム

データ分析の世界では、ソフトウェアプロセスと同様に、ETL（抽出、変換、読み込み）ジョブが毎日実行され、エグゼクティブ向けのダッシュボードとレポートが作成されます。これらは、あらゆるビジネス部門が意思決定のために使用します。不正確なデータがあると、正しい意思決定が行えなくなったり、意思決定自体ができなくなったりする可能性があります。

データパイプラインのオブザーバビリティとシフトレフト

データレイク／EDWに読み込まれたデータは、最終的な実用的なインサイトが得られるまでにさまざまな段階を通過します。初期の段階で問題を検出して把握する機能は、問題の対処に必要な時間、計算コスト、労力を節約するのに役立ちます。「シフトレフト」では、多くのデータ品質（DQ）チェックを生データゾーン、つまりデータパイプラインの抽出および読み込み（EL）部分に移動できます。このDQチェックには、毎日の行数の差異、列内のnull値、または特定の列の許容範囲（価格が指定範囲内にあるかどうかの確認など）が含まれます。

Top takeaways

信頼できるデータは、実用的なインサイトの基礎となります。データがどのように取り込まれ、保存され、変換され、消費されるかという、エンドツーエンドの総合的なデータ状況について考えることが重要です。主なアクティビティには、データランドスケープの各側面に対するSLOの確立、上流のデータプロバイダー間の適切なデータコントラクトセットの作成、それに基づいたデータコンシューマー向けのSLOの公開があります。鮮度、ボリューム、リネージュ、精度、スキーマなどのデータ品質（DQ）のあらゆる側面をカバーする、パイプラインの各ステップを監視する包括的なオブザーバビリティフレームワークを実装することが重要です。このジャーニーをNew Relicがどのように支援できるかについては、今後もご注目ください。

New Relicを使用してオブザーバビリティへのジャーニーを始めましょう。New Relicインスタントオブザーバビリティに移動し、750以上のインテグレーションから選択して、データとエンジニアリングスタックのあらゆる部分を監視しましょう。

By Amit Sethi, VP, Data Technology and Engineering

Amit Sethi is the VP, Data Technology and Engineering at New Relic.

The views expressed on this blog are those of the author and do not necessarily reflect the views of New Relic. Any solutions offered by the author are environment-specific and not part of the commercial solutions or support offered by New Relic. Please join us exclusively at the Explorers Hub (discuss.newrelic.com) for questions and support related to this blog post. This blog may contain links to content on third-party sites. By providing such links, New Relic does not adopt, guarantee, approve or endorse the information, views or products available on such sites.

780+ integrations to start monitoring your stack for free.

See All Integrations

In this article