問題タブ [rdd]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1660 参照

scala - foreach ループ内で NullPointerException をスパークさせる

私はRDDを持っていて、それをループしたいです。私はこれが好きです:

ただし、NullPointerException が発生しています。

pointsMapとの両方xCoordinatesWithDistanceが foreach の前に初期化され、要素が含まれています。foreach ループ内でなくてleftOuterJoinも機能します。私のコードの完全なバージョンについては、 https://github.com/timasjov/spark-learning/blob/master/src/DBSCAN.scalaを参照してください。

0 投票する
1 に答える
3044 参照

java - グループ化による Spark データ処理

csv 行のセットを特定の列でグループ化し、各グループで何らかの処理を行う必要があります。

pairRDD.lookup は非常に遅いです.spark でこれを行うためのより良い方法はありますか?

0 投票する
1 に答える
3830 参照

scala - scala 文字列を RDD[seq[string]] に変換します

上記のコード スニペットでは、collectedResult を抽出して hashingTF.transform に再利用したいと考えています。トークン化関数の署名がある場所でこれを実現するにはどうすればよいですか

0 投票する
2 に答える
76 参照

scala - Scala Sparc RDD は参照メンバーを持つオブジェクトを許可しますか?

Sparc RDD を使用してアプリケーションを設計する初期段階にいます (まだ理解していません)。RDD には多数のオブジェクトが含まれ、それらのオブジェクトには、不変の少数 (100) のやや大きな (0.5MB) オブジェクトへの参照が含まれます。

RDD を介してマップされる操作は、オブジェクトのメンバー関数を呼び出し、次に参照のメンバー関数を呼び出します。

これは原則として可能ですか?

0 投票する
4 に答える
15786 参照

scala - Hive テーブルから Spark にデータをフェッチし、RDD で結合を実行する

ハイブ/インパラに2つのテーブルがあります。テーブルからデータをrddsとしてsparkにフェッチし、結合操作を実行したいと考えています。

ハイブ コンテキストで結合クエリを直接渡したくありません。これはほんの一例です。標準の HiveQL では不可能なユースケースが他にもあります。すべての行をフェッチし、列にアクセスして変換を実行するにはどうすればよいですか。

2 つの rdds があるとします。

「account_id」という列のrddsで結合を実行したい

理想的には、spark シェルを使用して rdds を使用して、このようなことをしたいと考えています。

0 投票する
1 に答える
48 参照

scala - スパーク マップ変換の追加

次のようなテキストファイルがあります。

これは私に与えます:

最初の列に連結を使用し+ますが、最初の列に追加したい: