Amazon EC2とAmazon EMRの比較

Question

Hiveでタスクを実装しました。現在、それは私の単一ノードクラスターで正常に動作しています。現在、AWSにデプロイする予定です。

AWSについて何も知りません。デプロイする予定がある場合、Amazon EC2またはAmazon EMRを何を選択すればよいですか？

タスクのパフォーマンスを向上させたい。私にとってどちらがより良く、信頼できますか？それらに向けてどのようにアプローチしますか？ VMの設定はAWSでそのまま登録できると聞きましたが、可能ですか？

できるだけ早く私に提案してください。

どうもありがとう。

Mark Grover · Accepted Answer

EMRは、Hadoop（およびオプションでHiveやPig）がインストールおよび構成されたEC2インスタンスのコレクションです。クラスターを使用してHadoop/Hive/Pigジョブを実行している場合は、EMRが適しています。 EMRインスタンスは、EC2インスタンスと比較して少し追加料金がかかります。今日のAmazonの価格を簡単に確認すると、小さなEC2インスタンスのコストは1時間あたり0.08ドルであり、小さなEMRインスタンスのコストは1時間あたり0.015ドルであることがわかります。私の意見では、Hadoopを（HiveとPigとともに）インストールしてセットアップし、AMIを作成して維持し、それを使用する手間を省くために、追加のお金を払う価値はまったくあります。さらに、EMRのHadoopおよびHiveのバージョンには、Apache Hiveで（少なくとも、まだ）利用できないパッチがいくつかあります。 EC2を使用している場合、おそらくApache HadoopとHive（またはClouderaディストリビューション）を使用していて、それらのパッチ（S3のネイティブサポートやALTER TABLE my_table RECOVER PARTITIONSなどのコマンドなど）にアクセスできません。

参照：

Matthew Rathbone · Answer

2〜3か月の余裕があり、Hadoopエキスパートが手元にいる場合を除いて、独自のHadoopクラスターをデプロイしないでください。

Elastic MapReduceは、事前構成されたhadoop環境を提供することで、非常に迅速に開始できます。あなたは単一の仕事しかないので、それは問題ないはずです。

pwy · Answer

一般に、歴史的に、EMRはHadoopコンポーネントの最新バージョンよりかなり遅れており、完全に欠けているものもありました。これが、別のディストリビューションを使用する主な理由です。たとえば、HBaseが必要な場合、EMRにはありませんが、そうではありません。今日、SparkはEMRにありません。EMRは一般的に遅れます。

つまり、最新の優れた機能を使用していない場合は、EMRを使用してください。