web-dev-qa-db-ja.com

Hadoop対Data Lake

新しい用語Data Lakeを聞きました。私はググってそれを得た

データレイクは、大規模なストレージリポジトリおよび処理エンジンです。データレイクは、「あらゆる種類のデータのための大容量ストレージ、膨大な処理能力、事実上無制限の同時タスクまたはジョブを処理する機能」を提供します

データレイクという用語は、Hadoop指向のオブジェクトストレージに関連していることがよくあります。このようなシナリオでは、組織のデータが最初にHadoopプラットフォームにロードされ、次にビジネス分析およびデータマイニングツールが、データがHadoopのコモディティコンピューターのクラスターノードにあるデータに適用されます。

同じことがHadoopによって行われます。ストレージ用のHDFSと計算用のMapReduceがあります。 HadoopとData Lakeについて少し混乱しています。両者の違いは何ですか。それらが同じである場合、この用語が発生する理由。または、データレイクを定義する方法。

15
Kishore

データレイクは抽象的な「アイデア」です。 Hadoopは特定のテクノロジー/ソフトウェアです。データレイクは、hadoopまたは別のツールを使用して実装できます。

13
facha

データレイクは、データをシステム内に格納する方法であり、バリアントスキーマや構造フォーム(通常はオブジェクトblobまたはファイル)でのデータの照合を容易にします。

データレイクの概念は、Apache Hadoopおよびそのオープンソースプロジェクトのエコシステムと密接に関連しています。データレイクに関するすべての議論は、Apache Hadoopエコシステムの力を使用してデータレイクを構築する方法の説明にすぐにつながります。ビッグデータの課題に対処するための費用対効果が高く、技術的に実現可能な方法を提供するため、人気が高まっています。組織は、既存のデータアーキテクチャからの進化としてデータレイクを発見しています。

以下のホワイトペーパー は、Hadoopでデータレイクを構築するための優れた例として機能します。

4

Data Lakeを考える最も簡単な方法は、実際の湖のように、この川に流れ込む川がどこにあるか(または川の「タイプ」)がわからない、この大きなコンテナーを考えることです。

Data Lakeは、さまざまなタイプの大量のデータ(構造化データ、非構造化データ、ログファイル、リアルタイム、画像など)を格納し、それらをブレンドして、さまざまなデータタイプを関連付けることができます。 。ここで重要なことは、従来の方法から最新のツール(Hadoopなど、Cassandra、NoSQL DBなど)に移行していることです。

作成できるデータはたくさんありますが、分析できれば価値が生まれる可能性があります。クラウドを使用してそのデータを取得し、ストアに集めて分析できます。 AzureにはAzure Data Lake Storeがあります。そして、そのすべてのデータを取得して、Azure Data Lake Storeに保存できます。 Azure Data Lake Storeは、サイズがほぼ無制限のクラウドベースのファイルサービスまたはファイルシステムのようなものです。

そのストアにあるデータの上にサービスを実行できます。したがって、HadoopまたはSparkをHDInsightクラスターで使用できます。または、Azure Data Lake分析サービスを使用できます。これは、Azure Data Lake Storeを補完するものです。そのサービスによって、行うのは、Azure Data Lakeストアに保存したデータを効果的にクエリし、出力結果を生成するジョブを実行することです。

Azure Data Lake Storeは、分析したいすべてのデータを格納できる場所です。 Azure Data Lake Analyticsをサービスとして実行し、そのデータをクエリして分析用の出力を生成するジョブを実行できます。 Hadoopは特定のテクノロジーです /(オープンソースの分散データ処理クラスターテクノロジー)。データレイクは、hadoopまたは別のツールを使用して実装できます。

2
Nedzad G

概念(データレイク)とそれらを実装するために使用できるフレームワーク(Hadoop)を混同しましたが、これらの用語は互いに密接に関連しているので理解できます。

最初のデータレイクの一部はオンプレミスのHadoopを使用して構築されたため、Hadoopはデータレイクに関連付けられることがよくあります。ただし、データレイクは単なるアーキテクチャの設計パターンです。データレイクは、あらゆる種類のスケーラブルなオブジェクトストレージ(Azure Data LakeやAWS S3など)を使用してHadoopの外部で構築できます。

このサイト は、Hadoopを他の実装と一緒に説明する データレイクの履歴 を含む、データレイクの概要を説明するのに非常に優れています。これらは、これらの用語がどのように結び付けられるかを扱う別の article です。

1
Crash Override

その質問はあまりにも似ていると思います。

「Oracle vsデータベース」。

データレイクは、システムまたはリポジトリ内にデータを格納するメソッドです。 Hadoopはthecnologyを参照しており、Hadoopはデータを保存するためのオープンソースのソフトウェアフレームワークです。したがって、データレイクの1つの例は、Hadoopで使用される分散ファイルシステムです。