私はこれに参加しています。
A = Join smallTableBigEnoughForInMemory on (F1,F2) RIGHT OUTER, massive on (F1,F2);
B = Join anotherSmallTableBigforInMemory on (F1,F3 ) RIGHT OUTER, massive on (F1,F3);
どちらの結合も 1 つの共通キーを使用しているため、COGROUP を使用してデータを効率的に結合できないか疑問に思っていました。これは RIGHT 外部結合であることに注意してください。
F1 での共同グループ化については考えましたが、小さなテーブルでは単一のキーに複数の組み合わせ (200 ~ 300) があるため、単一のキーを使用した結合は使用していません。
パーティショニングは役立つと思いますが、データに偏りがあり、Pig での使用方法がわかりません