概要
ビッグデータの世界において、Databricks はミッションクリティカルなプラットフォームです。しかし、ワークロードが効率的かつコスト効果的に、そして確実に実行されていることをどのように確認すればよいのでしょうか?
New Relic の Databricks インテグレーションは、Databricks 環境全体に対する完全な可視性を提供します。これにより、統合されたオブザーバビリティプラットフォームからトラブルシューティング、最適化、そしてパフォーマンスやコストの関連付けを可能にします。このインテグレーションは、Databricks のパフォーマンス、健全性、使用量に関する、即時かつ実用的なインサイトを提供するように設計されています。
主な機能
Databricksインテグレーションは、Databricks環境全体にわたる包括的なテレメトリ収集機能を提供するオープンソースのコミュニティプロジェクトです。これらの機能により、詳細な分析と最適化に必要な「コンテキストを含んだ完全なデータ」を確実に取得できます。
Databricksコンポーネント | 収集された主なテレメトリー |
|---|---|
Databricksコンポーネント Spark Applications | 収集された主なテレメトリー Executorメモリ、CPU、ストレージのメトリクス、ジョブ・ステージ・タスクの所要時間、タスクのI/Oメトリクス |
Databricksコンポーネント Lakeflow Jobs | 収集された主なテレメトリー ジョブとタスクの実行期間、開始/終了時刻、終了コード |
Databricksコンポーネント Lakeflow Spark Declarative Pipelines | 収集された主なテレメトリー 更新とフローの期間、開始/終了時刻、完了ステータス、パイプラインイベントログ |
Databricksコンポーネント SQL Warehouses/Serverless Compute | 収集された主なテレメトリー クエリの実行とコンパイル時間、クエリI/Oメトリクス(読み取られたバイト数/ファイル数、読み取られた行数など) |
Databricksコンポーネント Classic Compute (Clusters) | 収集された主なテレメトリー ドライバーとワーカーノードのCPUとメモリのメトリクス、ドライバーとExecutorのログ、Sparkイベントログ |
Databricksコンポーネント Consumption & Cost (消費とコスト) | 収集された主なテレメトリー 課金対象の利用システム記録、価格データ一覧、ジョブおよびジョブ実行ごとの標準価格 |
主なメリット
このインテグレーションは、詳細なテレメトリデータを明確なビジネス価値へと変換し、Databricks への投資効果を最大化するのに役立ちます。
トラブルシューティングの迅速化と信頼性の向上
多種多様なツールでデータを関連付ける時間の浪費を止めましょう。New Relic の Databricks インテグレーションは、すべての Databricks テレメトリを「単一の画面」で提供し、問題解決を大幅に迅速化します。
- 統合ビュー:Sparkアプリケーション、Lakeflowジョブ、インフラストラクチャのテレメトリを一元管理し、ボトルネックを迅速に特定
- コンテキストに基づく可視性:Databricksのパフォーマンスが、アプリケーションやインフラストラクチャのエコシステム全体に与える影響、および受ける影響を把握
- 問題の特定:ステージの実行時間、タスクI/O、ジョブ終了コードなどの詳細なメトリクスを活用し、ジョブの遅延や失敗の根本原因を正確に特定
パフォーマンスとリソース使用率の向上
詳細なパフォーマンスデータにより、リソースやコードを調整して、効率を最大化できます。
- Sparkの最適化:長時間実行される Spark ジョブや、シャッフル操作の多いジョブを特定して最適化します。Executor のメモリと RDD ストレージのメトリクスを確認して、従来のコンピューティングリソースを調整
- クエリの最適化:実行時間やI/O メトリクスを可視化することで、長時間実行されるSQLクエリやデータ漏れが発生しているクエリを特定して最適化
- リソースのチューニング:ドライバーノードとワーカーノードの CPU やメモリメトリクスを監視し、従来のコンピューティングクラスタの過剰利用や利用不足を防止
投資の最適化とコスト管理
ワークロードのパフォーマンスメトリクスを DBU の消費量と推定コストに直接結び付けることで、Databricks のコストを最適化できます。
- コスト効率の向上:SKU 別に分類された課金対象の利用データを活用し、コストを押し上げている機能やワークロードを特定
- ジョブレベルのコスト分析:最もコストの高いジョブとジョブ実行を特定し、最適化を行う対象を絞り込み
簡単なセットアップで、インサイトを即座に取得
Databricks インテグレーションは複雑な設定なしで簡単にセットアップでき、すぐにインサイトを取得できます。
- シームレスなインストール:付属のクラスタ初期化スクリプトにより、特別なコマンドや追加のインフラストラクチャを必要とせずクラスタノードへ簡単にデプロイ
- 自動計装:キーの切り替えだけで、New Relic インフラストラクチャやログによるクラスタノードの計装をオプションで自動化
- 迅速なビジネス価値の創出:インストール後、提供されるサンプルダッシュボードをインストールするだけで、すぐに可視化の価値を実感可能
今すぐ始める
3つの簡単なステップで今すぐ始めましょう。
- インストール:付属の初期化スクリプトを使用してクラスタノードにインテグレーションをインストールすると、Databricks プラットフォームを New Relic に簡単に接続
- 検証:シンプルなクエリを1つ実行するだけで、データが正しく取り込まれていることを確認
- 可視化:ガイド付きインストールを使用してサンプルダッシュボードをインストールし、事前設定されたビューですぐに可視化を実現
詳細情報
インテグレーションの詳細については、New Relic Databricks インテグレーションの公式リポジトリをご覧ください。または、Getting Started セクションに直接アクセスして、すぐに設定手順をご確認ください。
まとめ
New Relic Databricks インテグレーションは、単なる監視にとどまりません。トラブルシューティングの迅速化、データ利用の最適化、データパイプラインの健全性と信頼性の確保に必要な、包括的な可視性と実用的な洞察を提供します。今すぐ Databricks プラットフォームをコントロールして、複雑なデータ運用を完全に可視化された運用へと転換しましょう。
本ブログに掲載されている見解は著者に所属するものであり、必ずしも New Relic 株式会社の公式見解であるわけではありません。また、本ブログには、外部サイトにアクセスするリンクが含まれる場合があります。それらリンク先の内容について、New Relic がいかなる保証も提供することはありません。