問題タブ [rdd]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - Scala Spark での RDD のネスト
この質問を参照してください: Scala Spark の NullPointerException は、コレクション型が原因のようです?
回答には、「Spark は RDD のネストをサポートしていません (同じ問題の別の発生については、 https: //stackoverflow.com/a/14130534/590203 を参照してください)。そのため、他の RDD 内の RDD に対して変換またはアクションを実行することはできません。オペレーション。"
このコード:
版画 :
正解です。
しかし、これは「他のRDD操作内のRDDで変換またはアクションを実行できない」ことに同意しませんか? RDD でネストされたアクションが発生しているので?
scala - reduceByKey メソッドが Scala Spark に見つからない
ソースからhttp://spark.apache.org/docs/latest/quick-start.html#a-standalone-app-in-scalaを実行しようとしています。
この行:
エラーを投げています
logData.flatMap(line => line.split(" ")).map(word => (word, 1))
MappedRDD を返しますが、 http ://spark.apache.org/docs/0.9.1/api/core/index.html#org.apache.spark.rdd.RDD でこのタイプを見つけることができません
このコードを Spark ソースから実行しているので、クラスパスの問題でしょうか? しかし、必要な依存関係は私のクラスパスにあります。
hadoop - Spark を使用して Hadoop 分散ファイル システムに複数回書き込む
hdfs から毎日テキスト ファイルを読み取り、テキスト ファイルの各行から一意のキーを抽出するスパーク ジョブを作成しました。各テキスト ファイルには、約 50000 個のキーがあります。次に、同じデータが抽出されたキーによってフィルタリングされ、hdfs に保存されます。
hdfs に、フィルター処理されたデータを含む hdfs://.../date/key という構造のディレクトリを作成したいと考えています。問題は、非常に多くのキーがあるため、hdfs への書き込みに非常に長い時間がかかることです。
それが今書かれている方法:
これをより速くする方法はありますか?抽出したキーの数にデータを再分割することを考えましたが、hdfs://.../date/key の形式で保存できません。groupByKey も試しましたが、RDD ではないため値を保存できません。
どんな助けでも大歓迎です:)
scala - 結合された RDD の使用方法
1.txt と 2.txt という名前のテキスト ファイルがあるとします。1.txt の内容
と 2.txt が含まれています
だから、私はそれらのキー(最初の列)で2つを結合しました:
さて、これを正しく理解すれば、
ここで、1.txt の 2 列目のすべての値を合計する必要があるとします。
どうすればいいですか?
結合された RDD で 2.txt の 2 列目 (g、i、k) を参照するにはどうすればよいですか?
RDD を使用するための適切なチュートリアルはありますか? 私はスパーク(およびスカラ)の初心者です。