私はMicrosoftのドキュメントを調べていました:
https://docs.Microsoft.com/en-us/Azure/data-lake-store/data-lake-store-overview
Azure Data LakeとHDInsightは初めてです。次のことを伝えるステートメントがURLにあります
"Azure Data Lake Store can be accessed from Hadoop (available with HDInsight cluster) using the WebHDFS-compatible REST APIs."
私の最初の理解では、データレイクストアは、あらゆる種類のデータを格納できるストアです。 HDInsightも同じことをしていると思います。
私の質問は、Azure Data LakeとAzure HDInsightの違いは何ですか? HDInsightをファイルストレージまたはあらゆる種類のストレージに使用できる場合、Data Lakeを使用する理由は何ですか?ありがとう。
Data Lakeを考える最も簡単な方法は、この本物の湖のようなもので、川が川に入ってくる大規模なコンテナについて考えることです川がどこから来ているかわからない(または川の「タイプ」)。 Azure Data Lakeは、開発者、データサイエンティスト、アナリストがあらゆるサイズのデータを簡単に保存できるようにするために導入されました。 すべてのデータを取り込んで保存するという複雑さを取り除き、ビッグデータの起動と実行を高速化します。 Data Lakeは、さまざまな種類のデータを保存することができます(構造化データ、非構造化データ、ログファイル、リアルタイム、画像など)、それをブレンドして、多くの異なるデータ型を関連付けます。ここで重要なのは、従来の方法から最新のツール(Hadoop、Cassandra、NoSQL DBなど)に移行していることです。 Azure Data Lakeには3つのサービスが含まれています。
Azure Data Lake Storeは、サイズがほぼ無制限のクラウドベースのファイルサービスまたはファイルシステムのようなものです。そのストアにあるデータの上でサービスを実行できます。したがって、HDInsightクラスターでHadoopまたはSpark)を使用するか、またはAzure Data Lake分析サービスを使用して、 Azure Data Lake Store:このサービスを使用すると、Azure Data Lakeストアに保存したデータを効率的に照会し、出力結果を生成するジョブを実行できます。
Azure Data Lake Storeは、まさにデータストアです。 HDInsightは、スピンアップしたクラスターでもそれを実行できます。ただし、そのクラスターを停止すると、データもなくなります。
顧客は、Azure Data Lake StoreまたはAzureストレージのいずれかを使用して、データの処理に使用されるクラスター(コンピューティング)とは別の永続的なストレージを提供することが一般的です。
男
HDInsightは分析サービスであり、Azure Data Lake Storageはストレージサービスです。ほとんどの場合、機能分析クラスターが必要です。
HDInsightはクラスターを提供し、分析用のオープンソースパッケージを完全に管理します(Hadoop、Spark ... etc)、HDFS APIをサポートするAzure Data Lake Storageを使用するようにクラスターをセットアップします( Hadoop FileSystem)をクラウドストレージの上に置きます。
Azure Data Lake Storage Gen2 は、Azure StorageとADLSの両方の利点を1つのサービスに統合するものです。 - https://Microsoft.sharepoint.com/sites/infopedia/media/channels/kurt-delbene-on-compete
ADLS Gen 2ドキュメント- https://docs.Microsoft.com/en-us/Azure/storage/data-lake-storage/introduction
一言で言えば、
Hdinsightはコンピューティングサポートを提供する管理されたhadoopサービス
ADLは大量のストレージサポートを提供するマネージドストレージサービス(Blobを使用することもできますが、Blobにはいくつかの制限があります(hdinsightクラスターを介したストレージへのファイルストリーミングはサポートされていません)
さらに情報が必要な場合は、以下をお読みください。
Azureは「分解されたハードウェアメソッド」を使用します
HDinsightをHadoopクラスター、Azure Data Lake(ADL)をHDFSとして関連付けるか、想定することができます。しかし、それらは切り離されています。
Hdinsightはadl://を使用してADLにアクセスし、hdinsightはノードにファイルブロックを格納しません(Hadoopのように)。ストレージサービスへのマッピングがあります。
クラスターを終了すると、ADLストレージにはファイルが保存されたままになります。別のサービスまたはツール(Azure Dataブリックなど)を使用してストレージに直接アクセスするか、データの上に別のhdinsightクラスターを作成できます。
Azure Data Lake Analyticsは、Azure Data Lake Storeをデータストレージに使用している間、サーバーレスコンピューティングを提供しますが、HDInsightでは、処理要件に従ってCompute Virtual Machineノードを指定および設計する必要があります。 Analytics Jobのスケーリングニーズはそのまま使用できるため、Azure Data Lake Analyticsでサーバーレスコンピューティングを使用すると、開発者にとって有利な場合があります。