hadoop - PIG で小さなファイルを処理する

Question

私の理解によると、Map/Reduce は大きなファイルでうまく機能します。（分割ロジックなどによるものだと理解しています）、ファイルを値として、ファイル名をキーとしてシーケンスファイルに入れて最適化できます。

問題は、分析に PIG を使用していることです。約数千のファイルがありますが、すべて KB 単位です。pig latin は変換されて MR ジョブとして実行されることがわかっているため、ファイルが小さいために MR ジョブが非効率になるのではないかと疑っています。

pig を処理する小さなファイルを制御する方法はありますか? すぐに使えるソリューションはありますか?

score 2 · Accepted Answer

Pig には、小さなファイルを大きなチャンクに結合する機能があります: http://pig.apache.org/docs/r0.11.1/perf.html#combine-files

1 に答える 1