5

小さな (16M 行) の個別のテーブルと大きな (6B 行) の歪んだテーブルの間にピッグ ジョインがあります。通常の参加は 2 時間で終了します (微調整後)。試しusing skewedた結果、パフォーマンスを 20 分に改善することができました。

ただし、より大きなスキュー テーブル (19B 行) を試すと、SAMPLER ジョブから次のメッセージが表示されます。

Split metadata size exceeded 10000000. Aborting job job_201305151351_21573 [ScriptRunner]
at org.apache.hadoop.mapreduce.split.SplitMetaInfoReader.readSplitMetaInfo(SplitMetaInfoReader.java:48)
at org.apache.hadoop.mapred.JobInProgress.createSplits(JobInProgress.java:817) [ScriptRunner]

これは を試すたびに再現可能using skewedであり、通常の結合を使用した場合には発生しません。

設定を試みたところmapreduce.jobtracker.split.metainfo.maxsize=-1、job.xml ファイルにあることがわかりますが、何も変わりません!

ここで何が起こっているのですか?これは が作成した配布サンプルのバグusing skewedですか? パラメータを に変更しても効果がないのはなぜ-1ですか?

4

2 に答える 2