現在、約 19 ギガバイトのログ データを扱っています。
入力ファイルの数が 145258 (pig stat) になるように、それらは大きく分離されています。
アプリケーションの実行から Web UI での mapreduce ジョブの開始までの間に、
準備に膨大な時間 (約 3 時間?) が費やされてから、mapreduce ジョブが開始されます。
また、mapreduce ジョブ自体 (Pig スクリプトによる) はかなり遅く、約 1 時間かかります。
mapreduce ロジックは、group by 操作のようにそれほど複雑ではありません。
3 つのデータノードと 1 つのネームノード、1 つのセカンダリネームノードがあります。
mapreduce のパフォーマンスを向上させるために構成を最適化するにはどうすればよいですか?