0

私はRhadoop(Rとhadoopの間のリンケージ)で何かを計算しようとしました。

Hadoop-1.0.4 にサンプルを埋め込んでクラスターのベンチマークを行ったところ、うまく機能しているように見えました。(つまり、CPU 使用率は 50% から 100% の間で変動していましたが、スレーブノードのすべてのコアが機能していました)

しかし、Rhadoop の例を適用すると、そうではありませんでした。(各スレーブノードの 1 つのコアのみがアクティブ化されました。)

Rhadoop でセットアップする必要がある構成はありますか? (core-site.xml などの Hadoop の構成ファイルで行ったのと同じように)

ありがとう

4

1 に答える 1

0

おそらく、RHadoop の一部である rmr2 について話しているでしょう。rmr2 には、このための特定の構成はありません。help(rmr.options)すべての設定オプションが表示されます。マップ タスクとマップ スロットの数によって、マップ フェーズの並列度が決まります。十分なスロットがあるようです。そのため、マップ タスクの数が不足する可能性があります。入力のサイズやその他のプロパティに依存する場合があります。mapreduceに追加の引数を渡すことができますがbackend.parameters = list(hadoop = list(D = 'mapred.map.tasks'))、hadoop はこの設定を逐語的に尊重せず、単にヒントとして受け取ります。のbackend.parameters引数は非推奨ですが、削除されると、この特定の目的のために代替メカニズムが提供されます。問題が削減フェーズにある場合は、一連のキーのカーディナリティも重要です (これにより、並列度の上限が設定されます)。再現可能な例を提供していただければ、私の回答には当て推量がはるかに少なくなるというポールの意見に同意します。RHadoop には、開発者とユーザーがアクティブな専用フォーラムがありますhttps://groups.google.com/forum/?fromgroups=#!forum/rhadoop

于 2013-03-11T16:07:32.500 に答える