Hadoop ストリーミング ジョブに複数のファイルを渡す必要があります。ドキュメントによると、 -file オプションはディレクトリも入力として受け取ります。しかし、うまくいかないようです。レデューサーは、ファイルが見つからないというエラーをスローします。他のオプションは、 -file オプションを使用して各ファイルを個別に渡すことです。これは、何百ものファイルがあることを考えると、あまり最適ではありません。もう1つのオプションは、ファイルを圧縮してtarballとして渡し、レデューサーで解凍することです
他のより良いオプションはありますか?
理想的には、 -file パラメータの値としてディレクトリを渡したいだけです