java - Java Spark Dataframe API (1.4.1) で定義されていない max() および sum() のメソッド

Question

のサンプルコードをコードに入れましたが、とundefinedDataFrame.groupBy()のメソッドが表示されました。max()sum()

df.groupBy("department").agg(max("age"), sum("expense"));

max()andsum()メソッドを使用する場合、どの Java パッケージをインポートすればよいですか?

このサンプルコードの構文は正しいですか。

score 10 · Accepted Answer

インポートはうまくいきませんでした。Eclipse IDE はまだコンパイルエラーを示していました。

しかし、次のメソッド呼び出しは機能しました

df.groupBy("Gender").agg(org.apache.spark.sql.functions.max(df.col("Id")), org.apache.spark.sql.functions.sum(df.col("Income")));

集計に 1 つのフィールドのみが含まれる場合は、次の構文も使用できます。

df.groupBy("Gender").max("Income");

score 3 · Accepted Answer

試すimport org.apache.spark.sql.functions._

編集。

私が気付いたことから、あなたはスカラ構文を使用しており、apply メソッドを介して列にアクセスしようとしています。Java の場合、次のような.colメソッドで列を渡す必要があります。

df.groupBy("department").agg(max(df.col("age")), sum(df.col("expense")));

ここでJavaの例を参照してください

score 0 · Accepted Answer

「org.apache.spark.sql.GroupedData」を検索しているようです

あなたが書いたようにコードでそれらを使用するには、静的インポートが必要です。

常に最初に API の説明を確認してください。

4 に答える 4