次の形式のソースがあります。
field1(key) field2 field3 field4
111 1 1 randomstring
111 2 1 randomstring
111 3 1 randomstring
111 4 1 randomstring
111 4 1 randomstring2
111 1 2 randomstring
...
各field3には任意の数のfield2とfield4が存在する可能性があり、field2に対してfield4が複数回出現する可能性があります。
存在する各field3のすべてのfield2とfield4の値を確認し、すべてのfield4の値が同じであるかどうかを確認したいと思います。
私の最初の考えは、groupby field3へのアグリゲーター変換を使用してみてから、field4でgroupbyを使用して追加の集計を実行し、それぞれの間でCount()を比較することでしたが、それが機能するかどうか、またはこのロジックを実行します。
私が理解しようとしているのは、field3で最初のgroupbyを実行した後、各エントリのすべてのフィールドをチェックする方法です。集計関数First()は、最初の値を取得するという意味でここに適用され、次のフィルタートランスで使用される出力として送信されますか?