問題タブ [rdd]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Spark RDD (Java) でインデックスによって要素を取得する方法
RDD の最初の要素を取得するメソッド rdd.firstwfirst() を知っています。
また、最初の「num」要素を提供するメソッド rdd.take(num) もあります。
しかし、インデックスで要素を取得する可能性はありませんか?
ありがとう
apache-spark - キャッシュと永続化の違いは何ですか?
永続性に関して、とsparkRDD
の違いは何ですか?cache()
persist()
scala - Spark Scala scala.util.control.Exception をキャッチしてマップに None をドロップする
scala で Spark アプリを作成していて、ダーティな入力ファイルを処理したいと考えています。
r(1) が数値でない場合、 NumberFormatException がスローされます。これは、醜い入力データの少数の行で発生します。
私は最終的に、必要なことを達成するための醜い方法にたどり着きました:
これにより、2 つの質問が残ります。
1) 不正な行をマップに単純にドロップする最良の方法は何ですか?
2) 最初に明示的に None を除外してから、None 以外の Option 値に .get 関数をマップして適用する必要なく、キャッチによって作成された Option タイプを処理するにはどうすればよいですか?
Nones を取り除くために .flatMap(identity) ステップを適用しようとしましたが、予期された: TraversableOnce[?] 例外が発生しました。
scala - キーと値のペアの RDD で、前の行のキーを次の行のキー フィールドにコピーする方法
サンプル データセット:
次のコードを使用して、キーと値のペアの RDD を作成しました。
コンソールでの Key-Value RDD 出力:
しかし、データセットの性質上、多くの行でこの "" がキー、つまり空白になっています (上記の RDD 出力を参照)。空の。これを行う方法。
scala - Spark: RDD[T]` を Seq[RDD[T]] に分割し、順序を保持する方法
要素を/に効果的にRDD[T]
分割し、元の順序を維持するにはどうすればよいですか?Seq[RDD[T]]
Iterable[RDD[T]]
n
こんな感じで書けるようになりたいです
次のような結果になるはずです
spark はそのような機能を提供しますか? そうでない場合、これを達成するためのパフォーマンスの高い方法は何ですか?
とても速く見えません..
python - 2 つの RDD をキーで結合するために使用される spark の関数はどれですか?
次のキーペア値を持つ次の 2 つの RDD があるとします。
と
今、それらをキー値で結合したいので、たとえば次のように返したい
Python または Scala を使用して spark でこれを行うにはどうすればよいですか? 1 つの方法は join を使用することですが、join はタプル内にタプルを作成します。しかし、キーと値のペアごとに 1 つのタプルのみが必要です。
scala - RDD[String] を RDD[(String, String)] に変換するにはどうすればよいですか?
RDD[String]
ファイルから取得しました:
myData の形式:
データをファイルから構造体に変換するにはどうすればよいRDD[(String, String)]
ですか? 例えば、
lucene - RDD を使用した単語の正規化
この質問は少し奇妙かもしれませんが...でも、聞いてみます。
Lucene API を使用してアプリケーションを作成したすべての人は、次のようなものを見ました。
RDDを使用して単語の正規化を書き直すことは可能ですか? 誰かがこの変換の例を持っているか、それについての Web リソースを指定できますか?
ありがとうございました。