問題タブ [rdd]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - org.apache.hadoop.conf.Configuration で Spark レコード区切り文字を設定中に RDD の操作に失敗しました
大きなテキストファイル「mydata.txt」(実際のファイルサイズは約30GB)をSparkで処理したいです。レコード区切り文字は「\ |」です。「\n」が続きます。ロードファイル(「sc.textFile」による)のデフォルトのレコードセパレータは「\n」なので、org.apache.hadoop.conf.Configuration の「textinputformat.record.delimiter」プロパティを「\ |\n」に設定してレコード区切り文字を指定します。
次に、spark-shell で次のコードを実行しました:</p>
ここまでは順調ですね。でも、
を使用するとすべて問題ないのに、RDD「データ」を操作できないのはなぜsc.textFile("mydata.txt")
ですか? そして、それを修正する方法は?
amazon-s3 - RDD をファイルに保存すると、パーツの _temporary パスが生成されます
S3 に保存したいデータが Spark にあります。推奨される保存方法は、saveAsTextFile
成功した SparkContext のメソッドを使用することです。データは「パーツ」として保存されると思います。
私の問題は、S3 にアクセスして自分のデータを確認すると、データがフォルダー名_temporary
に保存され、サブフォルダーが0
あり、各パーツまたはタスクが独自のフォルダーに保存されていることです。
例えば、
ファイルのいいね!
等々。私は期待し、次のようなものを見ました
これは構成設定ですか、それとも一時ファイルを解決するために保存を「コミット」する必要がありますか?
scala - groupBy の後の上位 N を取り、それらを RDD として扱います
N
groupByKey の後にトップ項目を取得し、(以下の)の型を値がどこにあるかRDD
に変換したいと思いますtopNPerGroup
RDD[(String, Int)]
List[Int]
flatten
data
は_
N
グループごとの上位アイテムは次のように計算されます。
結果は
によって印刷された
私が達成した場合、topNPerGroup.collect.foreach(println)
生成されます (期待される結果! )
sql - クエリ スキーマRDD を更新する
一部のデータ変換にscalaでschemaRDDを使用しています。この例のように SQL コンテキストと同じように更新クエリを使用するUPDATE users SET email = 'abc@example.com' WHERE ID = 1
と、次のエラーが発生します。
java.lang.RuntimeException: [1.1] failure: ''UNCACHE'' expected but identifier UPDATE found
apache-spark - Apache-Spark を使用して、条件に応じて RDD を削減または折りたたむ
私は Apache Spark と Scala を使用しています。String,Int の RDD があります
今は RDD をキーで減らしましたが、似ている単語も減らす機能をもう 1 つ追加したいと思います。
私は、レーベンシュタイン距離、ユークリッド距離、またはコサイン距離を使用することを考えました。
では、この関数の 1 つを適用して RDD を削減するにはどうすればよいでしょうか?
例:
類似性アルゴリズムが機能することを認めて、次のような削減されたRDDを取得するにはどうすればよいですか:
私は次のようなものを試しました:
java - Spark- JavaRDD を Cassandra に保存
このリンクJavaRDD
は、次の方法でtoを保存する方法を示していますCassandra
。
しかし、com.datastax.spark.connector.CassandraJavaUtil.*
非推奨のようです。更新された API は次のようになります。
上記の更新された APIJavaRDD
を使用して を保存するためのコードを誰か教えてもらえますか?Cassandra