3

Oozieを使用してMapReduceジョブの出力を単一のファイルに連結することは可能ですか?私が出力を持っているとしましょう...

part-r-00000
part-r-00001
part-r-00002

そして私はただ欲しい...

output.csv

を使用してそれらを単一のファイルとしてプルダウンできることは知っていますhadoop fs -getmergeが、ワークフローアプリケーションとHDFSで可能かどうか知りたいです。

4

2 に答える 2

2

私が考えることができる2つの簡単なオプション:

  1. この出力を生成したジョブを修正して、単一のレデューサーを使用します
  2. IDマッパー、IDリデューサー、シングルレデューサーを使用してmap-reduceアクションを実行します
于 2013-03-06T00:04:59.803 に答える
0

おそらくpigまたはJavaを使用して呼び出すことができます

http://hadoop.apache.org/docs/current/api/org/apache/hadoop/fs/FileSystem.html#concat-org.apache.hadoop.fs.Path-org.apache.hadoop.fs.Path: A-

または、Oozieのfs-actionの独自のフォークに追加することもできます。

または、webhdfsを使用します:http: //hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/WebHDFS.html#Concat_Files

そのcurl呼び出しをシェルまたはsshアクションでラップすることができます。

于 2017-02-15T12:42:43.307 に答える