0

私の理解によると、Map/Reduce は大きなファイルでうまく機能します。(分割ロジックなどによるものだと理解しています)、ファイルを値として、ファイル名をキーとしてシーケンスファイルに入れて最適化できます。

問題は、分析に PIG を使用していることです。約数千のファイルがありますが、すべて KB 単位です。pig latin は変換されて MR ジョブとして実行されることがわかっているため、ファイルが小さいために MR ジョブが非効率になるのではないかと疑っています。

pig を処理する小さなファイルを制御する方法はありますか? すぐに使えるソリューションはありますか?

4

1 に答える 1

2

Pig には、小さなファイルを大きなチャンクに結合する機能があります: http://pig.apache.org/docs/r0.11.1/perf.html#combine-files

于 2013-09-04T17:25:40.927 に答える