5

AWS で MapReduce を試した人はいますか? 何かご意見は?実装はどうですか?

4

8 に答える 8

15

始めるのは簡単です。

よくある質問はこちら: http://aws.amazon.com/elasticmapreduce/faqs/

入門ガイドはこちら: http://docs.amazonwebservices.com/ElasticMapReduce/latest/GettingStartedGuide/

すでに EC2 アカウントをお持ちの場合は、MapReduce を有効にして、AWS マネジメント コンソールを使用して 10 分以内にサンプル アプリケーションを起動して実行できます。

事前にパッケージ化された Word Count サンプル アプリケーションを実行しました。このアプリケーションは、約 20 MB のテキストに含まれる各単語のカウントを返します。最大 20 個のインスタンスを同時に実行するようにプロビジョニングできますが、私は 2 つのインスタンスを使用しただけで、ジョブは約 3 分で完了しました。

このジョブは、300 KB のアルファベット順の単語リストと、各単語がサンプル コーパスに出現する頻度を返します。

MapReduce ジョブは、Perl、Python、Ruby、PHP、C++、R、または Java のいずれかで記述できることが非常に気に入っています。プロセスは簡単で簡単で、インターフェイスはインスタンスのステータスとジョブ フローに関する適切なフィードバックを提供します。

AWS はインスタンスの作成時に 1 時間分の料金を請求し、MapReduce インスタンスはジョブ フローの最後に自動的に終了するため、複数の高速実行ジョブ フローのコストがすぐに加算される可能性があることに注意してください。

たとえば、20 個のインスタンスを使用して 15 分で結果を返すジョブ フローを作成し、ジョブ フローをさらに 3 回再実行すると、インスタンスが 20 個しかない場合でも、80 時間のマシン時間に対して課金されます。 1時間走る。

于 2009-04-03T06:27:43.827 に答える
4

StarClusterを使用して AWS で MapReduce (Hadoop) を実行することもできます。このツールはクラスターを構成し、追加の Amazon Elastic MapReduce 価格を支払う必要がないという利点があり (コストを削減したい場合)、ツールを使用して独自のイメージ (AMI) を作成できます (これにより、ブートストラップ スクリプトでツールのインストールを実行できない場合は、これで問題ありません)。

于 2012-04-05T23:29:58.150 に答える
2

独自のクラスターを管理する必要がないため、非常に便利です。料金は従量課金制なので、時々実行する必要があるジョブがある場合は良い考えだと思います。月に 1 回だけ Amazon MapReduce を実行しているので、使用する価値があります。

ただし、私が知る限り、Amazon Map Reduce の欠点は、実行中のオペレーティング システムやそのバージョンさえもわからないことです。これにより、g++ 4.44 でコンパイルされた c++ コードを実行する際に問題が発生したり、OS イメージの一部が cUrl ライブラリをサポートしていなかったりするなどの問題が発生しました。

ユースケースに特別なライブラリが必要ない場合は、それを選択してください。

于 2010-01-11T07:49:46.760 に答える
1

MBによる良い答え。

明確にするために、次の 2 つの方法で Hadoop クラスターを実行できます。1) Amazon EC2 インスタンスで実行します。これは、インストール、構成、終了などを行う必要があることを意味します。 2) Elastic MapReduce または EMR を使用して実行します。これは、Amazon Web Services で Hadoop クラスターを実行する自動化された方法です。EC2 の基本料金に加えて少し追加料金を支払いますが、何も管理する必要はありません。データをアップロードし、アルゴリズムをアップロードしてからクランチするだけです。ジョブが完了すると、EMR はインスタンスを自動的にシャットダウンします。

一番、

シモーネ

于 2011-07-27T03:32:51.277 に答える
1

EMR は、EC2 よりもわずかな追加コストで利用可能なリソースを使用するための最良の方法ですが、時間の節約と簡単さを実感できます。クラウドでの MR 実装のほとんどは、このモデルを使用しています。つまり、Windows Azure の Apache Hadoop、Mortar Data などです。私は Windows Azure で Amazon EMR と Apache Hadoop の両方に取り組んできましたが、非常に使いやすいことがわかりました。

于 2012-04-25T05:47:00.103 に答える
1

また、実行する予定のジョブの種類/期間によっては、AWS スポット インスタンスを EMR で使用して、より良い料金を得ることができます。

于 2012-10-17T21:28:57.450 に答える