問題タブ [rdd]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - foreach ループ内で NullPointerException をスパークさせる
私はRDDを持っていて、それをループしたいです。私はこれが好きです:
ただし、NullPointerException が発生しています。
pointsMap
との両方xCoordinatesWithDistance
が foreach の前に初期化され、要素が含まれています。foreach ループ内でなくてleftOuterJoin
も機能します。私のコードの完全なバージョンについては、 https://github.com/timasjov/spark-learning/blob/master/src/DBSCAN.scalaを参照してください。
java - グループ化による Spark データ処理
csv 行のセットを特定の列でグループ化し、各グループで何らかの処理を行う必要があります。
pairRDD.lookup は非常に遅いです.spark でこれを行うためのより良い方法はありますか?
scala - scala 文字列を RDD[seq[string]] に変換します
上記のコード スニペットでは、collectedResult を抽出して hashingTF.transform に再利用したいと考えています。トークン化関数の署名がある場所でこれを実現するにはどうすればよいですか
scala - Scala Sparc RDD は参照メンバーを持つオブジェクトを許可しますか?
Sparc RDD を使用してアプリケーションを設計する初期段階にいます (まだ理解していません)。RDD には多数のオブジェクトが含まれ、それらのオブジェクトには、不変の少数 (100) のやや大きな (0.5MB) オブジェクトへの参照が含まれます。
RDD を介してマップされる操作は、オブジェクトのメンバー関数を呼び出し、次に参照のメンバー関数を呼び出します。
これは原則として可能ですか?
scala - Hive テーブルから Spark にデータをフェッチし、RDD で結合を実行する
ハイブ/インパラに2つのテーブルがあります。テーブルからデータをrddsとしてsparkにフェッチし、結合操作を実行したいと考えています。
ハイブ コンテキストで結合クエリを直接渡したくありません。これはほんの一例です。標準の HiveQL では不可能なユースケースが他にもあります。すべての行をフェッチし、列にアクセスして変換を実行するにはどうすればよいですか。
2 つの rdds があるとします。
「account_id」という列のrddsで結合を実行したい
理想的には、spark シェルを使用して rdds を使用して、このようなことをしたいと考えています。
scala - スパーク マップ変換の追加
次のようなテキストファイルがあります。
これは私に与えます:
最初の列に連結を使用し+
ますが、最初の列に追加したい: