問題タブ [rdd]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
4641 参照

scala - org.apache.hadoop.conf.Configuration で Spark レコード区切り文字を設定中に RDD の操作に失敗しました

大きなテキストファイル「mydata.txt」(実際のファイルサイズは約30GB)をSparkで処理したいです。レコード区切り文字は「\ |」です。「\n」が続きます。ロードファイル(「sc.textFile」による)のデフォルトのレコードセパレータは「\n」なので、org.apache.hadoop.conf.Configuration の「textinputformat.record.delimiter」プロパティを「\ |\n」に設定してレコード区切り文字を指定します。

次に、spark-shell で次のコードを実行しました:</p>

ここまでは順調ですね。でも、

を使用するとすべて問題ないのに、RDD「データ」を操作できないのはなぜsc.textFile("mydata.txt")ですか? そして、それを修正する方法は?

0 投票する
2 に答える
911 参照

amazon-s3 - RDD をファイルに保存すると、パーツの _temporary パスが生成されます

S3 に保存したいデータが Spark にあります。推奨される保存方法は、saveAsTextFile成功した SparkContext のメソッドを使用することです。データは「パーツ」として保存されると思います。

私の問題は、S3 にアクセスして自分のデータを確認すると、データがフォルダー名_temporaryに保存され、サブフォルダーが0あり、各パーツまたはタスクが独自のフォルダーに保存されていることです。

例えば、

ファイルのいいね!

等々。私は期待し、次のようなものを見ました

これは構成設定ですか、それとも一時ファイルを解決するために保存を「コミット」する必要がありますか?

0 投票する
4 に答える
5788 参照

scala - groupBy の後の上位 N を取り、それらを RDD として扱います

NgroupByKey の後にトップ項目を取得し、(以下の)の型を値がどこにあるかRDDに変換したいと思いますtopNPerGroupRDD[(String, Int)]List[Int]flatten

dataは_

Nグループごとの上位アイテムは次のように計算されます。

結果は

によって印刷された

私が達成した場合、topNPerGroup.collect.foreach(println)生成されます (期待される結果! )

0 投票する
1 に答える
371 参照

sql - クエリ スキーマRDD を更新する

一部のデータ変換にscalaでschemaRDDを使用しています。この例のように SQL コンテキストと同じように更新クエリを使用するUPDATE users SET email = 'abc@example.com' WHERE ID = 1と、次のエラーが発生します。

java.lang.RuntimeException: [1.1] failure: ''UNCACHE'' expected but identifier UPDATE found

0 投票する
2 に答える
1756 参照

apache-spark - Apache-Spark を使用して、条件に応じて RDD を削減または折りたたむ

私は Apache Spark と Scala を使用しています。String,Int の RDD があります

今は RDD をキーで減らしましたが、似ている単語も減らす機能をもう 1 つ追加したいと思います。

私は、レーベンシュタイン距離、ユークリッド距離、またはコサイン距離を使用することを考えました。

では、この関数の 1 つを適用して RDD を削減するにはどうすればよいでしょうか?

例:

類似性アルゴリズムが機能することを認めて、次のような削減されたRDDを取得するにはどうすればよいですか:

私は次のようなものを試しました:

0 投票する
2 に答える
4709 参照

java - Spark- JavaRDD を Cassandra に保存

このリンクJavaRDDは、次の方法でtoを保存する方法を示していますCassandra

しかし、com.datastax.spark.connector.CassandraJavaUtil.*非推奨のようです。更新された API は次のようになります。

上記の更新された APIJavaRDDを使用して を保存するためのコードを誰か教えてもらえますか?Cassandra