6

mrjob を使用してファイルのバッチを処理し、統計を取得しています。次のように、単一のファイルで mapreduce ジョブを実行できることを知っています

python count.py < some_input_file > output

しかし、ファイルのディレクトリをスクリプトにフィードするにはどうすればよいでしょうか? ファイルのディレクトリ構造はこのようfolder/subfolders/filesになっていますが、何か提案はありますか?

4

1 に答える 1

7

最終的に、ディレクトリを入力パスとして指定すると、Hadoop がそのディレクトリ内のすべてのファイルを処理することがわかりました。

さらに私の場合、入力ファイルを含むサブディレクトリがあります。Hadoop はディレクトリを再帰的に横断せず、デフォルトでエラーが発生します。一般的なトリックは、次のようなワイルドカード グロブを使用することです。

python count.py hdfs://master-host/directory/*/*.txt > result
于 2012-12-07T12:48:20.000 に答える