Apache Hadoop の出力ファイルをより少ないファイルまたは 1 つのファイルに「クランチ」できるツールを知っている人はいますか? 現在、すべてのファイルをローカル マシンにダウンロードして、それらを 1 つのファイルに連結しています。同じことをする API やツールを知っている人はいますか。前もって感謝します。
質問する
7051 次
2 に答える
4
出力ファイルの数を制限するということは、レデューサーの数を制限したいということです。mapred.reduce.tasks
これは、Hive シェルのプロパティを使用して行うことができます。例 :
hive> set mapred.reduce.tasks = 5;
ただし、クエリのパフォーマンスに影響を与える可能性があります。getmerge
または、クエリが完了したら、HDFS シェルからコマンドを使用することもできます。このコマンドは、ソース ディレクトリと宛先ファイルを入力として受け取り、src 内のファイルを宛先ローカル ファイルに連結します。
使用法 :
bin/hadoop fs -getmerge <src> <localdst>
HTH
于 2013-05-12T23:28:36.243 に答える