New Relic Now Start training on Intelligent Observability February 25th.
Save your seat.

顧客や市場の深い理解を元にして戦略を立てる、”インサイトドリブン”のアプローチを採用する組織はますます増えています。データ活用は拡大し進化しています。かつては企業の業績報告に限定されていましたが、その壁を越え現在では、顧客の獲得や拡大、継続利用や解約などのビジネス活動に実用的な領域まで拡大しています。

これらのビジネスに不可欠な業務の遂行にデータ分析の正確性と完全性は欠かせません。日次、週次のダッシュボードを公開するだけでは不十分で、企業の利用するエンタープライズアプリケーション(CRM、カスタマーサポート、エンタープライズマーケティングソリューションなど)にデータを連携し高度な分析を行なっています。そのため、システムからシステムへデータを連携するパイプラインを常時動かし、高品質で正確なデータを元に正確なインサイトを確実に提供できるようにしておかなければいけません。

ビジネスへの影響とデータパイプラインのSLA

データパイプラインの信頼性が低いと、次のようなビジネス活動にリスクを抱えてしまいます。

  • 適切なデータがないので、マーケティングキャンペーンを推進できない
  • 顧客のことを360度全ての観点で把握できる情報がないと顧客から能力不足と判断され、解約につながる
  • 顧客に次の最適な提案ができない

これらのリスクへの対応として、企業はEDW(エンタープライズデータウェアハウス)が提供するデータセット、ダッシュボード、レポート、実用的なインサイトに関してサービスレベル契約(SLA)の確立を進めています。SLA不履行によるビジネスへの影響は、成熟したデータプログラムでは特に増大し、多大な財務的影響をもたらします。

データパイプラインのオブザーバビリティとは、およびその仕組み

データパイプラインのオブザーバビリティとは、データパイプラインとデータ品質のステータスを追跡、監視し、警告する機能を指します。

データパイプラインは、ソースシステムからデータを取り込むエンドツーエンドのプロセスから、データをレポートやビジネス活動に利用できるようにするなど、多岐にわたります。この段階には次のもの(ソースからEDWへのデータの取り込み、生データのさらなる絞り込み、標準化、正規化、および最終的にはデータセットのレポート)が含まれます。

データ障害が発生した場合、エンドツーエンドのデータパイプラインの問題箇所を理解することで、より迅速な優先順位付けとデータのダウンタイムを削減できます。データのダウンタイムの全コストには、以下のものがあります。

  • データのバグ修正にかかる時間数
  • データパイプラインのデータ更新を実行する時間
  • データ更新を行うデータインフラストラクチャのコストの計算
  • ビジネス上の意思決定の停滞による機会損失

企業がデータパイプラインのオブザーバビリティを必要とする理由

最新のデータプログラムにはエンドツーエンドのデータパイプラインの可視性が不可欠です。データの状態に関するインサイトとプロアクティブな介入の機会が得られ、ビジネスに実際に影響を及ぼすデータのダウンタイムが発生する前に、データパイプラインの継続的な整合性を確保できるためです。

データダウンタイムとは、データパイプラインの実行後、その結果のデータセットが不完全、不正確、または予定どおりに利用できないため、サービスレベル契約(SLA)を満たしていない期間を指します。

データパイプラインのオブザーバビリティから得られるインサイトは、パイプラインのどの部分が遅延の原因となっているかを特定する上で役に立ちます。これにより、チームはクエリや有向非巡回グラフ(DAG)を微調整して再設計できるようになり、ビジネス上のインサイトを得るまでの時間が短縮されます。

実用的なインサイトのダウンタイム

データ分析の世界では、ソフトウェアプロセスと同様に、ETL(抽出、変換、読み込み)ジョブが毎日実行され、エグゼクティブ向けのダッシュボードとレポートが作成されます。これらは、あらゆるビジネス部門が意思決定のために使用します。不正確なデータがあると、正しい意思決定が行えなくなったり、意思決定自体ができなくなったりする可能性があります。

 

データパイプラインの図

データパイプラインのオブザーバビリティとシフトレフト

データレイク/EDWに読み込まれたデータは、最終的な実用的なインサイトが得られるまでにさまざまな段階を通過します。初期の段階で問題を検出して把握する機能は、問題の対処に必要な時間、計算コスト、労力を節約するのに役立ちます。「シフトレフト」では、多くのデータ品質(DQ)チェックを生データゾーン、つまりデータパイプラインの抽出および読み込み(EL)部分に移動できます。このDQチェックには、毎日の行数の差異、列内のnull値、または特定の列の許容範囲(価格が指定範囲内にあるかどうかの確認など)が含まれます。