私の理解によると、Map/Reduce は大きなファイルでうまく機能します。(分割ロジックなどによるものだと理解しています)、ファイルを値として、ファイル名をキーとしてシーケンスファイルに入れて最適化できます。
問題は、分析に PIG を使用していることです。約数千のファイルがありますが、すべて KB 単位です。pig latin は変換されて MR ジョブとして実行されることがわかっているため、ファイルが小さいために MR ジョブが非効率になるのではないかと疑っています。
pig を処理する小さなファイルを制御する方法はありますか? すぐに使えるソリューションはありますか?