SparkとHadoop?
そうでない場合、Sparkなしで実行するときに見逃す機能はありますかHadoop?
SparkはHadoopなしで実行できますが、その機能の一部はHadoopのコードに依存しています(Parquetファイルの処理など)。 MesosとS3でSparkを実行していますが、セットアップは少し面倒でしたが、一度実行すると非常にうまく機能します(適切に設定するために必要なものの概要を読むことができます here )。
(編集)注:バージョン2.3.0以降SparkはKubernetesのネイティブサポートも追加しました
Sparkは、インメモリ分散コンピューティングエンジンです。
Hadoopは、分散ストレージ(HDFS)および分散のフレームワークです処理(YARN)。
Sparkは、Hadoopコンポーネント(HDFS/YARN)の有無にかかわらず実行できます
Sparkには独自の分散ストレージシステムがないため、これらのストレージシステムのいずれかに分散コンピューティングを依存する必要があります。
S3–非緊急バッチジョブ。 S3は、データの局所性が重要ではない非常に特定のユースケースに適合します。
Cassandra–ストリーミングデータ分析に最適で、バッチジョブの過剰です。
HDFS–データの局所性を損なうことなく、バッチジョブに最適。
Sparkは、3つの異なるモードで実行できます。Standalone、YARN、Mesos
分散ストレージと分散処理の両方に関する詳細な説明については、以下のSEの質問をご覧ください。
デフォルトでは、Sparkにはストレージメカニズムがありません。
データを保存するには、高速でスケーラブルなファイルシステムが必要です。 S3またはHDFSまたはその他のファイルシステムを使用できます。 Hadoopは低コストのため経済的なオプションです。
さらに、Tachyonを使用すると、Hadoopのパフォーマンスが向上します。 Apache spark の処理には、Hadoopを強くお勧めします。
はい、sparkはhadoopなしで実行できます。すべてのコアspark機能は引き続き機能しますが、hdfsなどを介してクラスター内のすべてのノードにすべてのファイル(コードとデータ)を簡単に配布することはできません。
はい、HadoopなしでSparkをインストールできます。それは少し注意が必要です。寄木細工のリンクを使用して寄木細工を使用して、S3をデータストレージとして構成できます。 http://arnon.me/2015/08/spark-parquet-s3/
Sparkは処理のみを行い、動的メモリを使用してタスクを実行しますが、データを保存するにはデータストレージシステムが必要です。ここでhadoopはSparkの役割を果たし、Sparkのストレージを提供します。 SparkでHadoopを使用するもう1つの理由は、それらがオープンソースであり、他のデータストレージシステムと比較して、両方が容易に相互に統合できることです。 S3のような他のストレージについては、上記のリンクで言及されているように設定するのが難しいはずです。
しかし、HadoopにはMapreduceと呼ばれる処理ユニットもあります。
両方の違いを知りたいですか?
この記事を確認してください: https://www.dezyre.com/article/hadoop-mapreduce-vs-Apache-spark-who-wins-the-battle/8
この記事はあなたの理解に役立つと思います
使用するもの、
andを使用する場合
使い方 !!!
Sparkのドキュメントに従って、SparkはHadoopなしで実行できます。
リソースマネージャなしでスタンドアロンモードとして実行できます。
ただし、マルチノードセットアップで実行する場合、リソースマネージャーが必要ですYARNまたはMesosとHDFS、S3などの分散ファイルシステムが必要です。
はい、もちろん。 Sparkは独立した計算フレームワークです。 Hadoopは、MapReduce計算フレームワークを備えたディストリビューションストレージシステム(HDFS)です。 Sparkは、HDFSからデータを取得できるだけでなく、従来のデータベース(JDBC)、kafkaまたはローカルディスクなどの他のデータソースも取得できます。
はい、Sparkは、Hadoopのインストールの有無にかかわらず実行できます。詳細については、- https://spark.Apache.org/docs/latest/ をご覧ください。