問題タブ [spark-dataframe]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - JavaのApache SparkでDataFrameをDatasetに変換するには?
DataFrame を Scala の Dataset に非常に簡単に変換できます。
しかし、Java バージョンでは、Dataframe を Dataset に変換する方法がわかりませんか? 何か案が?
私の努力は:
しかし、コンパイラは言う:
編集(解決策):
@Leet-Falconの回答に基づくソリューション:
arrays - SparkR - データフレームの配列の抽出R 関数の場合
私は何千ものセンサーを持っています。データを分割する必要があります (つまり、1 日あたりのセンサーごと)。次に、データ ポイントの各リストを R アルゴリズムに送信します)。Spark を使用すると、単純化されたサンプルは次のようになります。
寄木細工のファイルに変換して保存します。寄木細工を SparkR にロードします。問題ありません。スキーマには次のように書かれています。
そのため、SparkR には、必要なすべてのデータ (df$value) が各レコードに含まれるデータフレームがあります。その配列をRが消費できるものに抽出し、結果の配列を保持する新しい列で元のデータフレーム(df)を変更したいと考えています。論理的には results = function(df$value) のようなものです。次に、結果 (すべての行) を SparkR データフレームに戻して出力する必要があります。
SparkR データフレームから配列を抽出し、結果を変更するにはどうすればよいですか?
scala - 見つかりません: 値 udf エラー
コードで次のように定義された udf があります。
データセットのタイムスタンプ フィールドの部分文字列を取得しようとしています。ただし、見つからないというエラーが表示されます: value udf
私は何を間違っていますか?