問題タブ [spark-dataframe]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

3700 問題

0 投票する

1 に答える

1258 参照

scala - Spark: sqlContext および dataFrame エラー

Spark のサンプル Web サイトから次のコードを取得して、Eclipse から実行しようとしていますが、コードがコンパイルされていないようです。

しかし、その後、次のエラーが発生しました。ここで何か見逃しましたか？ありがとう！

同じエラー (テキストとして、IntelliJ から)

エラー:(18, 93) Person val people = sc.textFile("examples/src/main/resources/people.txt").map(_.split(",")).map(p = > Person(p(0), p(1).trim.toInt)).toDF() ^

2015-12-01T19:19:24.777

0 投票する

0 に答える

144 参照

apache-spark - Spark DataFrame アイテムでローカル (ドライバー) コードを繰り返し実行する

Spark、Dataframes、および Python を使用しています。

非常に巨大なデータフレームがあり、すべての行にいくつかの JPG 画像がバイナリデータとして含まれているとします。すべての画像を順番に表示するブラウザを構築したいと考えています。

入力として単一の行を取り、次のようなことを行うビュー関数があります。

次のコードは、spark-submit オプション--master local[*]で正常に動作します。

明らかに、view関数はリモートの Spark エグゼキューターでは実行できません。したがって、上記のコードはyarn-clientモードでは失敗します。

次のコードを使用して、yarn-clientモードで作業できます。

欠点は、収集できるアイテムが少ないことです。一度に 10 個または 100 個を超えるアイテムを取得するには、データが大きすぎます。

だから私の質問は：

エグゼキューターではなく、ドライバーでローカルに DF/RDD 操作を実行する手段はありますか?
DFで11日から10個集められる何かってある？「ID」列をDFに追加して、それを反復処理する必要がありますか(醜い)?
この結果を達成する他の方法はありますか?

手伝ってくれてありがとう！

apache-spark pyspark spark-dataframe

2015-12-04T12:57:46.100

0 投票する

4 に答える

8034 参照

scala - Spark: scala rdd で同等のグループ連結

私は次のデータフレームを持っています:

私はそれを次のように変換したい:

データフレーム操作で可能ですか?
この場合、rdd 変換はどのようになりますか?

rdd.reduce が鍵だと思いますが、このシナリオに適応させる方法がわかりません。

scala apache-spark group-concat rdd spark-dataframe

2015-12-08T07:47:36.010

0 投票する

1 に答える

3342 参照

python - 別の列パンダに応じて列を値に等しく設定する

各行の溶媒列の値をデータフレームの num 列の数値に設定する方法に行き詰まっています。たとえば、溶媒がノナンの場合は num を 9 に、溶媒がオクタンの場合は num を 8 にする必要があります。

python pandas spark-dataframe

2015-12-08T14:23:24.237

1 2 3 4 5 6 7 8 9 10

問題タブ [spark-dataframe]

scala - Spark: sqlContext および dataFrame エラー

apache-spark - Spark DataFrame アイテムでローカル (ドライバー) コードを繰り返し実行する

scala - Spark: scala rdd で同等のグループ連結

python - 別の列パンダに応じて列を値に等しく設定する

Reference