小さな (16M 行) の個別のテーブルと大きな (6B 行) の歪んだテーブルの間にピッグ ジョインがあります。通常の参加は 2 時間で終了します (微調整後)。試しusing skewed
た結果、パフォーマンスを 20 分に改善することができました。
ただし、より大きなスキュー テーブル (19B 行) を試すと、SAMPLER ジョブから次のメッセージが表示されます。
Split metadata size exceeded 10000000. Aborting job job_201305151351_21573 [ScriptRunner]
at org.apache.hadoop.mapreduce.split.SplitMetaInfoReader.readSplitMetaInfo(SplitMetaInfoReader.java:48)
at org.apache.hadoop.mapred.JobInProgress.createSplits(JobInProgress.java:817) [ScriptRunner]
これは を試すたびに再現可能using skewed
であり、通常の結合を使用した場合には発生しません。
設定を試みたところmapreduce.jobtracker.split.metainfo.maxsize=-1
、job.xml ファイルにあることがわかりますが、何も変わりません!
ここで何が起こっているのですか?これは が作成した配布サンプルのバグusing skewed
ですか? パラメータを に変更しても効果がないのはなぜ-1
ですか?