問題タブ [spark-dataframe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
13942 参照

apache-spark - リストにグループ化されたスパークデータフレーム

セットの分析をしようとしています。次のようなサンプル データ セットがあります。

注文.json

それは、ID を表す数字のリストである単一のフィールドだけです。

実行しようとしているSparkスクリプトは次のとおりです。

作成expandedgroupedて問題ありません。一言で言えばexpanded、2 つの ID が同じ元のセットにあった、2 つの ID のすべての可能なセットのリストです。grouped自分自身と一致した ID を除外し、ID のすべての一意のペアをグループ化し、それぞれのカウントを生成します。のスキーマとデータ サンプルは次のgroupedとおりです。

だから、私の質問は、タプルのリストを得るために、各結果の最初の項目をグループ化するにはどうすればよいですか? 上記のサンプル データの場合、次のようなものが期待できます。

のスクリプトでわかるように、recs各行の最初のアイテムである「item1」で groupBy を実行することから始めると思いました。しかしその後は、この GroupedData オブジェクトに対するアクションが非常に制限されたままになります。実際には、sum、avg などの集計を行うだけです。各結果のタプルを一覧表示したいだけです。

この時点で RDD 関数を簡単に使用できましたが、それはデータフレームの使用から逸脱しています。データフレーム関数でこれを行う方法はありますか。

0 投票する
2 に答える
13568 参照

python - pyspark データフレーム、グループ化、および列の分散の計算

pyspark データフレームをグループ化し、特定の列の分散を計算したいと思います。平均の場合、これは非常に簡単で、次のように実行できます

ただし、差異については、関数サブモジュールに集計関数がないようです(これは非常に一般的な操作であるため、理由も疑問に思っています)

0 投票する
1 に答える
3369 参照

pandas - キーと値のリストをpysparkのデータフレームに変換する方法は?

キーと値を含むテキスト ファイルがあり、一部の値が欠落していました。

欠損値を埋めたかったので、そうしました(データは私のrddです)

data1 は次のようになります。

上記のdata1をデータフレーム/テーブルに書き込みたい

しかし、私はエラーが発生しています

1)データフレームに書き込むにはどうすればよいですか? 2)以下のようにキーとリストを単一のタプルに変換するにはどうすればよいですか?

データフレームに直接書き込むことができるようにするには?

前もって感謝します :)

0 投票する
1 に答える
48869 参照

python - pySpark データフレームに行 ID を追加する方法

csv ファイルがあります。私は pyspark で DataFrame(df) に変換します。いくつかの変換の後; df に列を追加したい。これは単純な行 ID (0 または 1 から N まで) である必要があります。

rdd で df を変換し、「zipwithindex」を使用します。結果のrddをdfに変換しました。このアプローチは機能しますが、250k のタスクが生成され、実行に多くの時間がかかります。実行時間を短縮する他の方法があるかどうか疑問に思っていました。

以下は私のコードのスニペットです。私が処理しているcsvファイルはBIGです。何十億もの行が含まれています。

0 投票する
4 に答える
7006 参照

java-8 - Spark SQL の既存のデータフレームに新しい列を追加するにはどうすればよいですか?

私はDataFrame APIを使用しています。

既存の DataFrame と List オブジェクトがあります (Array も使用できます)。このリストを既存の DataFrame に新しい列として追加するにはどうすればよいですか? これにはクラスColumnを使用する必要がありますか?