windows functionの使用法について議論している投稿を見たことがあります。しかし、いくつか質問があります。
- HiveContextでしか使えないので。SparkSQLContext を既に使用している場合、SparkSQLContext と HiveContext を切り替えるにはどうすればよいですか?
ここでWindows関数を使用してHiveQLを実行するにはどうすればよいですか? 私は試した
df.registerTempTable("data") from pyspark.sql import functions as F from pyspark.sql import Window
%%hive SELECT col1, col2, F.rank() OVER (Window.partitionBy("col1").orderBy("col3") FROM data
およびネイティブ Hive SQL
SELECT col1, col2, RANK() OVER (PARTITION BY col1 ORDER BY col3) FROM data
しかし、どちらも機能しません。