hadoop - 大きなテーブルとの豚の歪んだ結合により、「分割メタデータのサイズが 10000000 を超えました」

翻译自：https://stackoverflow.com/questions/17163112 2013-06-18T07:36:02.790

3971 次

小さな (16M 行) の個別のテーブルと大きな (6B 行) の歪んだテーブルの間にピッグジョインがあります。通常の参加は 2 時間で終了します (微調整後)。試しusing skewedた結果、パフォーマンスを 20 分に改善することができました。

ただし、より大きなスキューテーブル (19B 行) を試すと、SAMPLER ジョブから次のメッセージが表示されます。

Split metadata size exceeded 10000000. Aborting job job_201305151351_21573 [ScriptRunner]
at org.apache.hadoop.mapreduce.split.SplitMetaInfoReader.readSplitMetaInfo(SplitMetaInfoReader.java:48)
at org.apache.hadoop.mapred.JobInProgress.createSplits(JobInProgress.java:817) [ScriptRunner]

これはを試すたびに再現可能using skewedであり、通常の結合を使用した場合には発生しません。

設定を試みたところmapreduce.jobtracker.split.metainfo.maxsize=-1、job.xml ファイルにあることがわかりますが、何も変わりません!

ここで何が起こっているのですか？これはが作成した配布サンプルのバグusing skewedですか? パラメータをに変更しても効果がないのはなぜ-1ですか?

hadoop - 大きなテーブルとの豚の歪んだ結合により、「分割メタデータのサイズが 10000000 を超えました」

2 に答える 2

Related

Reference