web-dev-qa-db-ja.com

処理のためのAzureDatabricksとADLA

現在、すべてのデータファイルがAzure Data LakeStoreにあります。ほとんどがcsv形式であるこれらのファイルを処理する必要があります。処理では、これらのファイルに対してジョブを実行して、シナリオに関連する特定の期間のデータや特定のイベントのデータを抽出したり、複数のテーブル/ファイルからデータを追加したりします。これらのジョブは、データファクトリ(v1またはv2)のu-sqlジョブを介して毎日実行され、視覚化のためにpowerBIに送信されます。

このすべての処理にADLAを使用すると、処理に時間がかかり、非常に費用がかかるように思われます。上記のプロセスにはAzureDatabricksを使用する必要があるという提案がありました。誰かが2つの違いのこの方向で私を助けてくれますか、そしてそれがシフトするのに役立つかどうか?すべてのU-sqlジョブをDatabricksノートブック形式に変更できますか?

8
Jobi

免責事項:私はDatabricksで働いています。

使用するデータの量、データの種類、または処理時間の長さを知らずに、賛否両論やアドバイスを提供することは困難です。 AzureのDataLake AnalyticsのコストをDatabricksと比較したい場合は、営業チームのメンバーと話すことによってのみ正確に行うことができます。

ADLAは(Hadoopの)YARNクラスターマネージャーに基づいており、U-SQLバッチ処理ワークロードのみを実行することに注意してください。 青い花崗岩 からの説明:

ADLA is focused on batch processing, which is great for many Big Data workloads. 
Some example uses for ADLA include, but are not limited to:

- Prepping large amounts of data for insertion into a Data Warehouse
- Processing scraped web data for science and analysis
- Churning through text, and quickly tokenizing to enable context and sentiment analysis
- Using image processing intelligence to quickly process unstructured image data
- Replacing long-running monthly batch processing with shorter running distributed processes

Databricksは、バッチ処理とストリーム処理の両方をカバーし、ETL(データエンジニア)とデータサイエンス(機械学習、ディープラーニング)の両方のワークロードを処理します。一般的に、企業がDatabricksを使用する理由はここにあります。

  • ApacheSpark™をより速く、信頼性が高く、より適切にスケーリングします。 Databricksは、Vanilla ApacheSpark™の100倍もの高速処理を可能にする最適化を備えたApacheSpark™(Databricksランタイム)のカスタマイズバージョンを作成しました。
  • セットアップ時間またはコストに起因するインフラストラクチャのボトルネックを取り除きます。 Databricksは、必要なすべてのコンポーネントを含むApacheSpark™クラスターを数分で作成します。 ApacheSpark™、Python、Scalaに加えて、必要なすべての機械学習ライブラリとディープラーニングライブラリは、Ops/DevOpsを使用せずにセットアップされます。クラスターは、必要な場合にのみ追加のリソースを使用するように自動スケーリングできます。未使用のクラスターは、不必要なコストが発生しないように、設定された時間後に自動終了します。
  • データエンジニアとデータサイエンティストの両方のための統合された分析プラットフォーム。データエンジニアとデータサイエンスチームは完全に独立して働いています。誤解、互いのコードと作業の可視性の欠如、および開発パイプラインの非効率性(データの取り込み、クリーンアップ、分析の準備)があります。 Databricksは、複数の言語(SQL、R、Python、Scalaなど)をサポートするコラボレーションノートブックを提供し、これら2つのグループが連携できるようにします。
  • ストリーミングのユースケースから複雑さを取り除きます。 DatabricksにはDeltaと呼ばれる新製品があり、他の人が読み取ろうとしているときに大量のストリーミングスキーマレスデータを処理するときによく発生する信頼性、パフォーマンス、データの不整合の問題に遭遇することなく、データレイクの規模を維持できます。それから。 Deltaは、ApacheSpark™ランタイムに加えてパフォーマンスを向上させ、データレイク内のデータのアップサートなどを可能にします(通常は非常に困難です)。
  • エンタープライズセキュリティ、サポート、およびspark専門知識。サードパーティの検証済みセキュリティによる暗号化、アクセス制御など。75 ApacheSpark™コードベースの%はDatabricksによって提供されているため、提供される知識と専門知識のレベルは、他のどこよりも優れています。その専門知識は、クエリの最適化、クラスターの調整、セットアップ方法の推奨に役立つ可能性があります。データパイプラインなど。

それらよりも多くの理由がありますが、それらは最も一般的なもののいくつかです。それがあなたの状況を助けるかもしれないと思うならば、あなたはウェブサイトで試用を試みるべきです。

8
GuavaKhan