問題タブ [rdd]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
3631 参照

scala - Scala Spark での RDD のネスト

この質問を参照してください: Scala Spark の NullPointerException は、コレクション型が原因のようです?

回答には、「Spark は RDD のネストをサポートしていません (同じ問題の別の発生については、 https: //stackoverflow.com/a/14130534/590203 を参照してください)。そのため、他の RDD 内の RDD に対して変換またはアクションを実行することはできません。オペレーション。"

このコード:

版画 :

正解です。

しかし、これは「他のRDD操作内のRDDで変換またはアクションを実行できない」ことに同意しませんか? RDD でネストされたアクションが発生しているので?

0 投票する
3 に答える
13126 参照

scala - reduceByKey メソッドが Scala Spark に見つからない

ソースからhttp://spark.apache.org/docs/latest/quick-start.html#a-standalone-app-in-scalaを実行しようとしています。

この行:

エラーを投げています

logData.flatMap(line => line.split(" ")).map(word => (word, 1))MappedRDD を返しますが、 http ://spark.apache.org/docs/0.9.1/api/core/index.html#org.apache.spark.rdd.RDD でこのタイプを見つけることができません

このコードを Spark ソースから実行しているので、クラスパスの問題でしょうか? しかし、必要な依存関係は私のクラスパスにあります。

0 投票する
3 に答える
5460 参照

hadoop - Spark を使用して Hadoop 分散ファイル システムに複数回書き込む

hdfs から毎日テキスト ファイルを読み取り、テキスト ファイルの各行から一意のキーを抽出するスパーク ジョブを作成しました。各テキスト ファイルには、約 50000 個のキーがあります。次に、同じデータが抽出されたキーによってフィルタリングされ、hdfs に保存されます。

hdfs に、フィルター処理されたデータを含む hdfs://.../date/key という構造のディレクトリを作成したいと考えています。問題は、非常に多くのキーがあるため、hdfs への書き込みに非常に長い時間がかかることです。

それが今書かれている方法:

これをより速くする方法はありますか?抽出したキーの数にデータを再分割することを考えましたが、hdfs://.../date/key の形式で保存できません。groupByKey も試しましたが、RDD ではないため値を保存できません。

どんな助けでも大歓迎です:)

0 投票する
1 に答える
867 参照

scala - 結合された RDD の使用方法

1.txt と 2.txt という名前のテキスト ファイルがあるとします。1.txt の内容

と 2.txt が含まれています

だから、私はそれらのキー(最初の列)で2つを結合しました:

さて、これを正しく理解すれば、

ここで、1.txt の 2 列目のすべての値を合計する必要があるとします。

  1. どうすればいいですか?

  2. 結合された RDD で 2.txt の 2 列目 (g、i、k) を参照するにはどうすればよいですか?

  3. RDD を使用するための適切なチュートリアルはありますか? 私はスパーク(およびスカラ)の初心者です。