問題タブ [apache-spark-dataset]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
dataframe - Spark の DataFrame、Dataset、および RDD の違い
RDD
Apache Spark のとDataFrame
(Spark 2.0.0 DataFrame は の単なるタイプ エイリアスですDataset[Row]
)の違いは何ですか?
一方を他方に変換できますか?
performance - DataFrame / データセット グループ別の動作/最適化
df
次の列で構成されるDataFrameがあるとします。
名前、姓、サイズ、幅、長さ、重さ
次に、いくつかの操作を実行します。たとえば、Size と Width に関するデータを含む DataFrame をいくつか作成します。
お気づきのように、Length などの他の列はどこにも使用されていません。Spark はシャッフル フェーズの前に冗長な列を削除するほどスマートですか、それとも持ち越されますか? ウィルランニング:
グループ化が何らかの形でパフォーマンスに影響を与える前に?
java - JavaのApache SparkでDataFrameをDatasetに変換するには?
DataFrame を Scala の Dataset に非常に簡単に変換できます。
しかし、Java バージョンでは、Dataframe を Dataset に変換する方法がわかりませんか? 何か案が?
私の努力は:
しかし、コンパイラは言う:
編集(解決策):
@Leet-Falconの回答に基づくソリューション:
scala - ケースクラスを使用して JSON をエンコードすると、「データセットに格納されている型のエンコーダーが見つかりません」というエラーが表示されるのはなぜですか?
私はスパークジョブを書きました:
IDE で main 関数を実行すると、次の 2 つのエラーが発生します。
しかし、Spark Shell では、このジョブをエラーなしで実行できます。何が問題ですか?
apache-spark - データセットをバイナリ ファイル/寄木細工の床にシリアル化する方法は?
をシリアル化するにはどうすればよいDataSet
ですか? Encoder
を使用してバイナリ ファイルを作成する方法はありますか、それとも に変換してからDataFrame
寄木細工として保存する必要がありますか?
apache-spark - Spark SQL の Dataset.filter に関するエラー
MySQL で見つかるレコードのみを含むようにデータセットをフィルター処理したいと考えています。
データセットは次のとおりです。
MySQL のテーブルは次のとおりです。
これは私のコードです(spark-shellで実行しています):
しかし、「java.lang.NullPointerException」が発生します
私はテストしました
正しい結果 1 と 0 を得ることができます。
フィルターの問題は何ですか?
scala - Apache Spark で GroupedDataset の操作によって作成された新しい列の名前を変更する方法は?
count
結果をDataFrameに変換せずに、操作の列の名前を変更するにはどうすればよいですか?
scala - Apache Spark データセットで enum 列のケース クラスを作成するには?
データをデータセットに変換したい。列名は、storyType (小、中、大、特大) です。したがって、この状況でケースクラスを作成する方法がわかりません