Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
mrjob を使用してファイルのバッチを処理し、統計を取得しています。次のように、単一のファイルで mapreduce ジョブを実行できることを知っています
python count.py < some_input_file > output
しかし、ファイルのディレクトリをスクリプトにフィードするにはどうすればよいでしょうか? ファイルのディレクトリ構造はこのようfolder/subfolders/filesになっていますが、何か提案はありますか?
folder/subfolders/files
最終的に、ディレクトリを入力パスとして指定すると、Hadoop がそのディレクトリ内のすべてのファイルを処理することがわかりました。
さらに私の場合、入力ファイルを含むサブディレクトリがあります。Hadoop はディレクトリを再帰的に横断せず、デフォルトでエラーが発生します。一般的なトリックは、次のようなワイルドカード グロブを使用することです。
python count.py hdfs://master-host/directory/*/*.txt > result