Oozieを使用してMapReduceジョブの出力を単一のファイルに連結することは可能ですか?私が出力を持っているとしましょう...
part-r-00000
part-r-00001
part-r-00002
そして私はただ欲しい...
output.csv
を使用してそれらを単一のファイルとしてプルダウンできることは知っていますhadoop fs -getmerge
が、ワークフローアプリケーションとHDFSで可能かどうか知りたいです。
私が考えることができる2つの簡単なオプション:
おそらくpigまたはJavaを使用して呼び出すことができます
または、Oozieのfs-actionの独自のフォークに追加することもできます。
または、webhdfsを使用します:http: //hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/WebHDFS.html#Concat_Files。
そのcurl呼び出しをシェルまたはsshアクションでラップすることができます。