Hiveでタスクを実装しました。現在、それは私の単一ノードクラスターで正常に動作しています。現在、AWSにデプロイする予定です。
AWSについて何も知りません。デプロイする予定がある場合、Amazon EC2またはAmazon EMRを何を選択すればよいですか?
タスクのパフォーマンスを向上させたい。私にとってどちらがより良く、信頼できますか?それらに向けてどのようにアプローチしますか? VMの設定はAWSでそのまま登録できると聞きましたが、可能ですか?
できるだけ早く私に提案してください。
どうもありがとう。
EMRは、Hadoop(およびオプションでHiveやPig)がインストールおよび構成されたEC2インスタンスのコレクションです。クラスターを使用してHadoop/Hive/Pigジョブを実行している場合は、EMRが適しています。 EMRインスタンスは、EC2インスタンスと比較して少し追加料金がかかります。今日のAmazonの価格を簡単に確認すると、小さなEC2インスタンスのコストは1時間あたり0.08ドルであり、小さなEMRインスタンスのコストは1時間あたり0.015ドルであることがわかります。私の意見では、Hadoopを(HiveとPigとともに)インストールしてセットアップし、AMIを作成して維持し、それを使用する手間を省くために、追加のお金を払う価値はまったくあります。さらに、EMRのHadoopおよびHiveのバージョンには、Apache Hiveで(少なくとも、まだ)利用できないパッチがいくつかあります。 EC2を使用している場合、おそらくApache HadoopとHive(またはClouderaディストリビューション)を使用していて、それらのパッチ(S3のネイティブサポートやALTER TABLE my_table RECOVER PARTITIONS
などのコマンドなど)にアクセスできません。
参照:
2〜3か月の余裕があり、Hadoopエキスパートが手元にいる場合を除いて、独自のHadoopクラスターをデプロイしないでください。
Elastic MapReduceは、事前構成されたhadoop環境を提供することで、非常に迅速に開始できます。あなたは単一の仕事しかないので、それは問題ないはずです。
一般に、歴史的に、EMRはHadoopコンポーネントの最新バージョンよりかなり遅れており、完全に欠けているものもありました。これが、別のディストリビューションを使用する主な理由です。たとえば、HBaseが必要な場合、EMRにはありませんが、そうではありません。今日、SparkはEMRにありません。EMRは一般的に遅れます。
つまり、最新の優れた機能を使用していない場合は、EMRを使用してください。