次のようにスパース データで array_agg をクエリする効率的な方法はありますか? 一部の要素が部分的にしか重複していない場合でも、疎な要素を含む行を集約する必要があります。
入力
ID | tags
----|-------------
a1 | {b1, b2}
a2 | {b1, b3, b4}
a3 | {b4, b5}
a4 | {b6, b7}
a5 | {b6, b8}
ご覧のとおり、a1、a2、および a3 のタグは完全には重複していませんが、部分的な重複のために集約する必要があります。データがまばらであるため、集計のサイズはそれほど大きくありません。
期待される出力
IDs | tags
-------------|-------------
{a1, a2, a3} | {b1, b2, b3, b4, b5}
{a4, a5} | {b6, b7, b8}
約 20 万行のデータに対して、一晩かそこらでクエリが実行されるとよいでしょう。
ご協力ありがとう御座います。
トシ