問題タブ [spark-dataframe]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Spark DataFrame アイテムでローカル (ドライバー) コードを繰り返し実行する
Spark、Dataframes、および Python を使用しています。
非常に巨大なデータフレームがあり、すべての行にいくつかの JPG 画像がバイナリ データとして含まれているとします。すべての画像を順番に表示するブラウザを構築したいと考えています。
入力として単一の行を取り、次のようなことを行うビュー関数があります。
次のコードは、spark-submit オプション--master local[*]で正常に動作します。
明らかに、view関数はリモートの Spark エグゼキューターでは実行できません。したがって、上記のコードはyarn-clientモードでは失敗します。
次のコードを使用して、yarn-clientモードで作業できます。
欠点は、収集できるアイテムが少ないことです。一度に 10 個または 100 個を超えるアイテムを取得するには、データが大きすぎます。
だから私の質問は:
- エグゼキューターではなく、ドライバーでローカルに DF/RDD 操作を実行する手段はありますか?
- DFで11日から10個集められる何かってある?「ID」列をDFに追加して、それを反復処理する必要がありますか(醜い)?
- この結果を達成する他の方法はありますか?
手伝ってくれてありがとう !
scala - Spark: scala rdd で同等のグループ連結
私は次のデータフレームを持っています:
私はそれを次のように変換したい:
- データフレーム操作で可能ですか?
- この場合、rdd 変換はどのようになりますか?
rdd.reduce が鍵だと思いますが、このシナリオに適応させる方法がわかりません。