現在、すべてのデータファイルがAzure Data LakeStoreにあります。ほとんどがcsv形式であるこれらのファイルを処理する必要があります。処理では、これらのファイルに対してジョブを実行して、シナリオに関連する特定の期間のデータや特定のイベントのデータを抽出したり、複数のテーブル/ファイルからデータを追加したりします。これらのジョブは、データファクトリ(v1またはv2)のu-sqlジョブを介して毎日実行され、視覚化のためにpowerBIに送信されます。
このすべての処理にADLAを使用すると、処理に時間がかかり、非常に費用がかかるように思われます。上記のプロセスにはAzureDatabricksを使用する必要があるという提案がありました。誰かが2つの違いのこの方向で私を助けてくれますか、そしてそれがシフトするのに役立つかどうか?すべてのU-sqlジョブをDatabricksノートブック形式に変更できますか?
免責事項:私はDatabricksで働いています。
使用するデータの量、データの種類、または処理時間の長さを知らずに、賛否両論やアドバイスを提供することは困難です。 AzureのDataLake AnalyticsのコストをDatabricksと比較したい場合は、営業チームのメンバーと話すことによってのみ正確に行うことができます。
ADLAは(Hadoopの)YARNクラスターマネージャーに基づいており、U-SQLバッチ処理ワークロードのみを実行することに注意してください。 青い花崗岩 からの説明:
ADLA is focused on batch processing, which is great for many Big Data workloads.
Some example uses for ADLA include, but are not limited to:
- Prepping large amounts of data for insertion into a Data Warehouse
- Processing scraped web data for science and analysis
- Churning through text, and quickly tokenizing to enable context and sentiment analysis
- Using image processing intelligence to quickly process unstructured image data
- Replacing long-running monthly batch processing with shorter running distributed processes
Databricksは、バッチ処理とストリーム処理の両方をカバーし、ETL(データエンジニア)とデータサイエンス(機械学習、ディープラーニング)の両方のワークロードを処理します。一般的に、企業がDatabricksを使用する理由はここにあります。
それらよりも多くの理由がありますが、それらは最も一般的なもののいくつかです。それがあなたの状況を助けるかもしれないと思うならば、あなたはウェブサイトで試用を試みるべきです。