0

分割せずにファイル全体をマッパーに送信する方法はありますか?

これを読みましたが、中間ファイルを生成せずに同じことを行う別の方法があるかどうか疑問に思っています。理想的には、Hadoop に対するコマンド ラインの既存のオプションが必要です。

streamingAmazon EMR で Python スクリプトを使用してこの機能を使用しています。

4

1 に答える 1

1

構成プロパティmapred.min.split.sizeを巨大なもの (10G) に設定するだけです。

-D mapred.min.split.size=10737418240

または、分割できないコーデック (Gzip) を使用して入力ファイルを圧縮します。拡張子が .gz の場合、TextInputFormat はisSplittable(FileSystem, Path)メソッドに false を返します。

于 2012-06-10T15:42:48.110 に答える