6

Apache Hadoop の出力ファイルをより少ないファイルまたは 1 つのファイルに「クランチ」できるツールを知っている人はいますか? 現在、すべてのファイルをローカル マシンにダウンロードして、それらを 1 つのファイルに連結しています。同じことをする API やツールを知っている人はいますか。前もって感謝します。

4

2 に答える 2

4

出力ファイルの数を制限するということは、レデューサーの数を制限したいということです。mapred.reduce.tasksこれは、Hive シェルのプロパティを使用して行うことができます。例 :

hive>  set mapred.reduce.tasks = 5;

ただし、クエリのパフォーマンスに影響を与える可能性があります。getmergeまたは、クエリが完了したら、HDFS シェルからコマンドを使用することもできます。このコマンドは、ソース ディレクトリと宛先ファイルを入力として受け取り、src 内のファイルを宛先ローカル ファイルに連結します。

使用法 :

bin/hadoop fs -getmerge <src> <localdst>

HTH

于 2013-05-12T23:28:36.243 に答える