1

次の形式のソースがあります。

field1(key)  field2  field3     field4
  111          1        1     randomstring
  111          2        1     randomstring
  111          3        1     randomstring   
  111          4        1     randomstring
  111          4        1     randomstring2
  111          1        2     randomstring
  ...

各field3には任意の数のfield2とfield4が存在する可能性があり、field2に対してfield4が複数回出現する可能性があります。

存在する各field3のすべてのfield2とfield4の値を確認し、すべてのfield4の値が同じであるかどうかを確認したいと思います。

私の最初の考えは、groupby field3へのアグリゲーター変換を使用してみてから、field4でgroupbyを使用して追加の集計を実行し、それぞれの間でCount()を比較することでしたが、それが機能するかどうか、またはこのロジックを実行します。


私が理解しようとしているのは、field3で最初のgroupbyを実行した後、各エントリのすべてのフィールドをチェックする方法です。集計関数First()は、最初の値を取得するという意味でここに適用され、次のフィルタートランスで使用される出力として送信されますか?

4

0 に答える 0