0

ルビーを使用してビルドされたローカル マッパーとリデューサーを入力ファイルで実行できます。

ただし、分散システムの動作については不明です。

本番システムでは、2 台のマシンに HDFS をセットアップしました。大きなファイルを HDFS に保存すると、並列化を可能にするために両方のマシンにいくつかのブロックが存在することがわかっています。実際のマッパーとレデューサー ファイル (この場合は私の ruby​​ ファイル) も HDFS に保存する必要がありますか?

また、実際にストリーミング ジョブを実行して、両方のシステムで並行して実行するにはどうすればよいでしょうか?

4

1 に答える 1

1

Ruby (または Java 以外のもの) で記述されたマッパー/リデューサーを使用する場合は、hadoop ストリーミングを使用する必要があります。Hadoop ストリーミングには、ジョブをクラスターに送信するときにマッパー/リデューサー ファイルをパッケージ化するオプションがあります。次のリンクには、探しているものが含まれているはずです。

http://hadoop.apache.org/common/docs/r0.15.2/streaming.html

于 2012-05-01T03:45:32.780 に答える