0

2 ノードの Hadoop 2.2.0 クラスターで実行されている M/R ジョブでいくつかのテストを行っています。私が理解したいことの 1 つは、ジョブをローカル モード (ResourceManager によって管理されない) で実行し、YARN で実行する場合のパフォーマンスに関する考慮事項です。私が行ったテストでは、ジョブが YARN で管理されている場合よりも LocalJobRunner を介して実行されている場合の方がはるかに高速に実行されることが示されています。クラスターをセットアップするとき、ここで説明されている手順に従っていましたhttp://raseshmori.wordpress.com/2012/10/14/install-hadoop-nextgen-yarn-multi-node-cluster/、おそらくガイドにいくつかの構成があります言及するのを忘れましたか?

ありがとう!

4

2 に答える 2

0

テストと小さな例のために LocalJobRunner を実行します。最初に Hadoop を使用することを正当化する量のデータ (別名「ビッグ データ」) を処理する必要がある場合は、クラスターを使用します。

小さな例を実行すると、分散されたものを実行するオーバーヘッドが並列化の利点を圧倒します

于 2014-06-13T19:58:27.433 に答える
0

アーノン そうです。私のユースケースの 1 つで、LocalJobRunner を使用して実行すると、yarn を使用するよりもはるかに高速であることがわかりました。LocalJobRunner を使用して実行すると、マップ プロセスがインプロセスおよびローカル マシンで実行されます。ジョブは HDFS クラスターに送信されません。したがって、マップ タスクは複数のマシンでスケジュールされません。したがって、コードの単体テストには LocalJobRunner を使用する必要があります。それでおしまい。他のすべての実用的な目的には、yarn を使用してください。

于 2015-02-18T10:40:58.247 に答える