web-dev-qa-db-ja.com

Amazon EC2とAmazon EMRの比較

Hiveでタスクを実装しました。現在、それは私の単一ノードクラスターで正常に動作しています。現在、AWSにデプロイする予定です。

AWSについて何も知りません。デプロイする予定がある場合、Amazon EC2またはAmazon EMRを何を選択すればよいですか?

タスクのパフォーマンスを向上させたい。私にとってどちらがより良く、信頼できますか?それらに向けてどのようにアプローチしますか? VMの設定はAWSでそのまま登録できると聞きましたが、可能ですか?

できるだけ早く私に提案してください。

どうもありがとう。

21
Bhavesh Shah

EMRは、Hadoop(およびオプションでHiveやPig)がインストールおよび構成されたEC2インスタンスのコレクションです。クラスターを使用してHadoop/Hive/Pigジョブを実行している場合は、EMRが適しています。 EMRインスタンスは、EC2インスタンスと比較して少し追加料金がかかります。今日のAmazonの価格を簡単に確認すると、小さなEC2インスタンスのコストは1時間あたり0.08ドルであり、小さなEMRインスタンスのコストは1時間あたり0.015ドルであることがわかります。私の意見では、Hadoopを(HiveとPigとともに)インストールしてセットアップし、AMIを作成して維持し、それを使用する手間を省くために、追加のお金を払う価値はまったくあります。さらに、EMRのHadoopおよびHiveのバージョンには、Apache Hiveで(少なくとも、まだ)利用できないパッチがいくつかあります。 EC2を使用している場合、おそらくApache HadoopとHive(またはClouderaディストリビューション)を使用していて、それらのパッチ(S3のネイティブサポートやALTER TABLE my_table RECOVER PARTITIONSなどのコマンドなど)にアクセスできません。

参照:

27
Mark Grover

2〜3か月の余裕があり、Hadoopエキスパートが手元にいる場合を除いて、独自のHadoopクラスターをデプロイしないでください。

Elastic MapReduceは、事前構成されたhadoop環境を提供することで、非常に迅速に開始できます。あなたは単一の仕事しかないので、それは問題ないはずです。

5

一般に、歴史的に、EMRはHadoopコンポーネントの最新バージョンよりかなり遅れており、完全に欠けているものもありました。これが、別のディストリビューションを使用する主な理由です。たとえば、HBaseが必要な場合、EMRにはありませんが、そうではありません。今日、SparkはEMRにありません。EMRは一般的に遅れます。

つまり、最新の優れた機能を使用していない場合は、EMRを使用してください。

1
pwy