python - mrjobを使用して、1つのディレクトリの下にあるすべてのファイルを繰り返し処理するにはどうすればよいですか

Question

mrjob を使用してファイルのバッチを処理し、統計を取得しています。次のように、単一のファイルで mapreduce ジョブを実行できることを知っています

python count.py < some_input_file > output

しかし、ファイルのディレクトリをスクリプトにフィードするにはどうすればよいでしょうか? ファイルのディレクトリ構造はこのようfolder/subfolders/filesになっていますが、何か提案はありますか?

score 7 · Accepted Answer

最終的に、ディレクトリを入力パスとして指定すると、Hadoop がそのディレクトリ内のすべてのファイルを処理することがわかりました。

さらに私の場合、入力ファイルを含むサブディレクトリがあります。Hadoop はディレクトリを再帰的に横断せず、デフォルトでエラーが発生します。一般的なトリックは、次のようなワイルドカードグロブを使用することです。

python count.py hdfs://master-host/directory/*/*.txt > result

1 に答える 1