私が豚に望んでいることがわかっている一般的なことは、次のようなデータとの小さな関係です
A = id, attribute1:int, attribute2:double...
のようなデータとの大きな関係
B = id, differentattribute:chararray...
B をフィルタリングして、すべてのタプルが A に含まれる ID を持つようにします。
C = JOIN A by id, B by id;
D = FOREACH C GENERATE B::id, B::differentattribute;
しかし、それは信じられないほど非効率的です。PIG FILTER で IN 原因を使用すると、IN 句がないと主張されます...そうでない場合、UDF で IN を模倣するより効率的な方法はありますか?