問題タブ [rdd]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

3893 問題

0 投票する

1 に答える

4641 参照

scala - org.apache.hadoop.conf.Configuration で Spark レコード区切り文字を設定中に RDD の操作に失敗しました

大きなテキストファイル「mydata.txt」(実際のファイルサイズは約30GB)をSparkで処理したいです。レコード区切り文字は「\ |」です。「\n」が続きます。ロードファイル(「sc.textFile」による)のデフォルトのレコードセパレータは「\n」なので、org.apache.hadoop.conf.Configuration の「textinputformat.record.delimiter」プロパティを「\ |\n」に設定してレコード区切り文字を指定します。

次に、spark-shell で次のコードを実行しました：</p>

ここまでは順調ですね。でも、

を使用するとすべて問題ないのに、RDD「データ」を操作できないのはなぜsc.textFile("mydata.txt")ですか? そして、それを修正する方法は？

2014-11-28T03:26:11.187

0 投票する

2 に答える

911 参照

amazon-s3 - RDD をファイルに保存すると、パーツの _temporary パスが生成されます

S3 に保存したいデータが Spark にあります。推奨される保存方法は、saveAsTextFile成功した SparkContext のメソッドを使用することです。データは「パーツ」として保存されると思います。

私の問題は、S3 にアクセスして自分のデータを確認すると、データがフォルダー名_temporaryに保存され、サブフォルダーが0あり、各パーツまたはタスクが独自のフォルダーに保存されていることです。

例えば、

ファイルのいいね！

等々。私は期待し、次のようなものを見ました

これは構成設定ですか、それとも一時ファイルを解決するために保存を「コミット」する必要がありますか?

amazon-s3 apache-spark rdd

2014-11-29T16:26:20.223

0 投票する

4 に答える

5788 参照

scala - groupBy の後の上位 N を取り、それらを RDD として扱います

NgroupByKey の後にトップ項目を取得し、(以下の)の型を値がどこにあるかRDDに変換したいと思いますtopNPerGroupRDD[(String, Int)]List[Int]flatten

dataは_

Nグループごとの上位アイテムは次のように計算されます。

結果は

によって印刷された

私が達成した場合、topNPerGroup.collect.foreach(println)生成されます (期待される結果! )

scala apache-spark rdd

2014-12-03T15:09:17.397

0 投票する

1 に答える

371 参照

sql - クエリスキーマRDD を更新する

一部のデータ変換にscalaでschemaRDDを使用しています。この例のように SQL コンテキストと同じように更新クエリを使用するUPDATE users SET email = 'abc@example.com' WHERE ID = 1と、次のエラーが発生します。

java.lang.RuntimeException: [1.1] failure: ''UNCACHE'' expected but identifier UPDATE found

sql scala apache-spark rdd

2014-12-05T13:35:24.590

0 投票する

2 に答える

1756 参照

apache-spark - Apache-Spark を使用して、条件に応じて RDD を削減または折りたたむ

私は Apache Spark と Scala を使用しています。String,Int の RDD があります

今は RDD をキーで減らしましたが、似ている単語も減らす機能をもう 1 つ追加したいと思います。

私は、レーベンシュタイン距離、ユークリッド距離、またはコサイン距離を使用することを考えました。

では、この関数の 1 つを適用して RDD を削減するにはどうすればよいでしょうか?

例：

類似性アルゴリズムが機能することを認めて、次のような削減されたRDDを取得するにはどうすればよいですか:

私は次のようなものを試しました：

apache-spark rdd reduce fold

2014-12-05T19:34:52.323

0 投票する

2 に答える

4709 参照

java - Spark- JavaRDD を Cassandra に保存

このリンクJavaRDDは、次の方法でtoを保存する方法を示していますCassandra。

しかし、com.datastax.spark.connector.CassandraJavaUtil.*非推奨のようです。更新された API は次のようになります。

上記の更新された APIJavaRDDを使用してを保存するためのコードを誰か教えてもらえますか?Cassandra

java apache-spark cassandra rdd spark-cassandra-connector

2014-12-05T19:40:10.513

1 2 3 4 5 6 7 8 9 10

問題タブ [rdd]

scala - org.apache.hadoop.conf.Configuration で Spark レコード区切り文字を設定中に RDD の操作に失敗しました

amazon-s3 - RDD をファイルに保存すると、パーツの _temporary パスが生成されます

scala - groupBy の後の上位 N を取り、それらを RDD として扱います

sql - クエリ スキーマRDD を更新する

apache-spark - Apache-Spark を使用して、条件に応じて RDD を削減または折りたたむ

java - Spark- JavaRDD を Cassandra に保存

Reference

sql - クエリスキーマRDD を更新する