PySpark ジョブを実行していますが、次のメッセージが表示されます。
WARN org.apache.spark.sql.execution.Window: No Partition Defined for Window operation! Moving all data to a single partition, this can cause serious performance degradation.
メッセージは何を示していますか? また、ウィンドウ操作用にパーティションを定義するにはどうすればよいですか?
編集:
列全体でランク付けしようとしています。
私のデータは次のように編成されています。
A
B
A
C
D
そして私が欲しい:
A,1
B,3
A,1
C,4
D,5
これには .partitionBy() を使用する必要はないと思います。.orderBy() のみです。問題は、これがパフォーマンスの低下を引き起こすように見えることです。ウィンドウ関数なしでこれを達成する別の方法はありますか?
最初の列で分割すると、結果は次のようになります。
A,1
B,1
A,1
C,1
D,1
私はしたくない。