フィルター キーワードのリスト (約 1000 個) があり、このリストを使用して pig の関係のフィールドをフィルター処理する必要があります。
最初に、これらのキーワードを次のように宣言しました: %declare p1 '. キーワード1. '; …………
%declare p1000 '. キーワード1000。';
次に、次のようなフィルタリングを行っています。
Filtered= FITLER SRC BY ($0 が '$p1' に一致しない) and ($0 が '$p2' に一致しない) and ...... ($0 が '$p1000' に一致しない);
DUMP フィルタリング済み。
ソース関係が SRC にあり、最初のフィールド、つまり $0 にフィルタリングを適用する必要があるとします。
フィルターの数を 100 ~ 200 に減らしている場合は、正常に機能しています。しかし、フィルターの数が 1000 に増えると、うまくいきません。
誰かが結果を正しくするための回避策を提案できますか?
前もって感謝します