問題タブ [set-operations]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pyspark - pyspark では、groupby の後、ある列ではなく別の列 (減算を設定) で値を見つけるにはどうすればよいですか?
レコードの pyspark データフレームdf
があり、各レコードにはid
とがありgroup
、2 つのイベント ( event1, event2
) が発生したかどうかをマークします。各グループの id の数を見つけたいのですが、それは次のとおりです。
- 両方の出来事が彼らに起こりました。
- event2 は発生しましたが、event1 は発生しませんでした。
ここで簡単な例を抽出しています:
上記df
でgroup = A
は、2 つの ID に event1:(001,003) があり、3 つの ID に event2:(001,002,003) があるためです。たとえば、event1 ではなく event2 の ID の数は 1 です。
このようなものが得られることを願っています。
これまでのところ、各イベントに表示される一連の ID を収集してから、セット操作を で個別に実行しようとしましたnew_df
。しかし、これはかなり不器用だと感じました。例えば、
pysparkでこれをエレガントに達成するにはどうすればよいですか?
python - Python で 2 つのセットの差と交差を計算する最も効率的な方法
と の 2 つのセットがあるs1
としs2
ます。
これら 2 つのセットに基づいて、3 つの異なるセットが必要です。
s1
には存在するが存在しない要素のセットs2
。s2
には存在するが存在しない要素のセットs1
。s1
と の両方に存在する要素のセットs2
。
これらは次のように簡単に計算できます。
これらのセットをより効率的に計算する方法はありますか? 異なるセット操作には複数の内部処理ステップが共通しているため、冗長性がある可能性があると思います。