ruby - Hadoop ストリーミングと Ruby マッパー/リデューサーを使用して、分散された map-reduce ジョブを設定するにはどうすればよいですか?

Question

ルビーを使用してビルドされたローカルマッパーとリデューサーを入力ファイルで実行できます。

ただし、分散システムの動作については不明です。

本番システムでは、2 台のマシンに HDFS をセットアップしました。大きなファイルを HDFS に保存すると、並列化を可能にするために両方のマシンにいくつかのブロックが存在することがわかっています。実際のマッパーとレデューサーファイル (この場合は私の ruby ファイル) も HDFS に保存する必要がありますか?

また、実際にストリーミングジョブを実行して、両方のシステムで並行して実行するにはどうすればよいでしょうか?

score 1 · Accepted Answer

Ruby (または Java 以外のもの) で記述されたマッパー/リデューサーを使用する場合は、hadoop ストリーミングを使用する必要があります。Hadoop ストリーミングには、ジョブをクラスターに送信するときにマッパー/リデューサーファイルをパッケージ化するオプションがあります。次のリンクには、探しているものが含まれているはずです。

http://hadoop.apache.org/common/docs/r0.15.2/streaming.html

ruby - Hadoop ストリーミングと Ruby マッパー/リデューサーを使用して、分散された map-reduce ジョブを設定するにはどうすればよいですか?

1 に答える 1

Related

Reference