ルビーを使用してビルドされたローカル マッパーとリデューサーを入力ファイルで実行できます。
ただし、分散システムの動作については不明です。
本番システムでは、2 台のマシンに HDFS をセットアップしました。大きなファイルを HDFS に保存すると、並列化を可能にするために両方のマシンにいくつかのブロックが存在することがわかっています。実際のマッパーとレデューサー ファイル (この場合は私の ruby ファイル) も HDFS に保存する必要がありますか?
また、実際にストリーミング ジョブを実行して、両方のシステムで並行して実行するにはどうすればよいでしょうか?