問題タブ [rdd]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

3893 問題

0 投票する

1 に答える

3631 参照

scala - Scala Spark での RDD のネスト

この質問を参照してください: Scala Spark の NullPointerException は、コレクション型が原因のようです?

回答には、「Spark は RDD のネストをサポートしていません (同じ問題の別の発生については、 https: //stackoverflow.com/a/14130534/590203 を参照してください)。そのため、他の RDD 内の RDD に対して変換またはアクションを実行することはできません。オペレーション。"

このコード:

版画 :

正解です。

しかし、これは「他のRDD操作内のRDDで変換またはアクションを実行できない」ことに同意しませんか? RDD でネストされたアクションが発生しているので?

2014-05-22T20:30:30.040

0 投票する

3 に答える

13126 参照

scala - reduceByKey メソッドが Scala Spark に見つからない

ソースからhttp://spark.apache.org/docs/latest/quick-start.html#a-standalone-app-in-scalaを実行しようとしています。

この行：

エラーを投げています

logData.flatMap(line => line.split(" ")).map(word => (word, 1))MappedRDD を返しますが、 http ://spark.apache.org/docs/0.9.1/api/core/index.html#org.apache.spark.rdd.RDD でこのタイプを見つけることができません

このコードを Spark ソースから実行しているので、クラスパスの問題でしょうか? しかし、必要な依存関係は私のクラスパスにあります。

scala apache-spark rdd

2014-05-29T22:08:59.723

0 投票する

3 に答える

5460 参照

hadoop - Spark を使用して Hadoop 分散ファイルシステムに複数回書き込む

hdfs から毎日テキストファイルを読み取り、テキストファイルの各行から一意のキーを抽出するスパークジョブを作成しました。各テキストファイルには、約 50000 個のキーがあります。次に、同じデータが抽出されたキーによってフィルタリングされ、hdfs に保存されます。

hdfs に、フィルター処理されたデータを含む hdfs://.../date/key という構造のディレクトリを作成したいと考えています。問題は、非常に多くのキーがあるため、hdfs への書き込みに非常に長い時間がかかることです。

それが今書かれている方法：

これをより速くする方法はありますか？抽出したキーの数にデータを再分割することを考えましたが、hdfs://.../date/key の形式で保存できません。groupByKey も試しましたが、RDD ではないため値を保存できません。

どんな助けでも大歓迎です:)

hadoop hdfs apache-spark partition rdd

2014-07-01T22:31:35.143

0 投票する

1 に答える

867 参照

scala - 結合された RDD の使用方法

1.txt と 2.txt という名前のテキストファイルがあるとします。1.txt の内容

と 2.txt が含まれています

だから、私はそれらのキー（最初の列）で2つを結合しました：

さて、これを正しく理解すれば、

ここで、1.txt の 2 列目のすべての値を合計する必要があるとします。

どうすればいいですか？
結合された RDD で 2.txt の 2 列目 (g、i、k) を参照するにはどうすればよいですか?
RDD を使用するための適切なチュートリアルはありますか? 私はスパーク（およびスカラ）の初心者です。

scala apache-spark rdd

2014-07-09T01:05:49.213

1 2 3 4 5 6 7 8 9 10

問題タブ [rdd]

scala - Scala Spark での RDD のネスト

scala - reduceByKey メソッドが Scala Spark に見つからない

hadoop - Spark を使用して Hadoop 分散ファイル システムに複数回書き込む

scala - 結合された RDD の使用方法

Reference

hadoop - Spark を使用して Hadoop 分散ファイルシステムに複数回書き込む