24

Hive でタスクを実装しました。現在、単一ノード クラスタで正常に動作しています。現在、AWS にデプロイする予定です。

AWSについては何も知りません。デプロイする予定がある場合、Amazon EC2 または Amazon EMR のどちらを選択すればよいですか?

タスクのパフォーマンスを向上させたい。どちらが私にとってより良く、信頼できますか? それらにどのようにアプローチしますか?VMの設定をそのままAWSに登録することもできるそうです。出来ますか?

できるだけ早く私に提案してください。

どうもありがとう。

4

3 に答える 3

31

EMR は、Hadoop (およびオプションで Hive や Pig) がインストールおよび構成された EC2 インスタンスのコレクションです。Hadoop/Hive/Pig ジョブを実行するためにクラスターを使用している場合は、EMR が最適です。EMR インスタンスは、EC2 インスタンスと比較して少し余分な費用がかかります。今日の Amazon の価格を簡単に確認すると、小さな EC2 インスタンスの費用は 1 時間あたり 0.08 ドルで、小さな EMR インスタンスの追加料金は 1 時間あたり 0.015 ドルであることがわかります。私の意見では、Hadoop を (Hive と Pig と共に) インストールしてセットアップし、AMI を作成して維持し、それを使用する手間を省くために、余分なお金を払う価値は十分にあります。さらに、EMR のバージョンの Hadoop と Hive には、Apache Hive では (少なくとも、まだ) 利用できないパッチがいくつかあります。EC2 を使用する場合、おそらく Apache Hadoop と Hive (または Cloudera ディストリビューション) を使用することになるでしょう。ALTER TABLE my_table RECOVER PARTITIONS

参考文献:

于 2012-04-25T01:54:55.490 に答える
6

2 ~ 3 か月の余裕があり、Hadoop の専門家が手元にいる場合を除き、独自の Hadoop クラスターを展開しようとしないことをお勧めします。

Elastic MapReduce は、事前構成済みの Hadoop 環境を提供することで、非常に迅速に開始できるようにします。あなたの仕事は 1 つしかないので、問題ないはずです。

于 2012-04-23T19:27:58.393 に答える
2

一般に、歴史的に見て、EMR は Hadoop コンポーネントの最新バージョンからかなり遅れており、一部は完全に欠落していました。これが、別のディストリビューションを使用する主な理由です。たとえば、HBase が必要な場合、EMR にはありませんでしたが、そうではありません。今日、Spark は EMR に不在です。EMRは一般的に遅れます。

とはいえ、最新かつ最高の機能を使用していない場合は、EMR を使用してください。

于 2014-06-03T15:57:47.743 に答える