問題タブ [apache-spark-2.0]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
dataset - Spark 2.0: RDD からデータセットへの移行
Java Spark アプリ (実際にはいくつかの計算に RDD を使用します) をDatasets
の代わりに使用するように調整したいと考えていますRDDs
。私はデータセットを初めて使用し、対応するデータセット操作にどのトランザクションをマップするかわかりません。
現時点では、次のようにマッピングします。
対応する質問は次のとおりです。
JavaRDD.mapToPair
メソッドに等しいDataset.groupByKey
?JavaPairRDD
にマップしKeyValueGroupedDataset
ますか?- メソッドと等しいメソッドはどれ
JavaPairRDD.aggregateByKey
ですか?
ただし、次の RDD コードをデータセットに移植したいと考えています。
私のコードはまだこれに見えます:
apache-spark - spark でドライバーからエグゼキューターにパラメーターを渡す
私はspark 2.0.0を使用しています。spark ドライバーからエグゼキューターにパラメーターを渡す方法はありますか? 以下を試しました。
上記のように、パラメーターを渡すカスタム mappartitionfunction を作成しました。partitionfunction の call メソッドで static 変数にアクセスしています。これは、"setmaster("local") を使用してローカルで実行したときに機能しました。しかし、.setmaster("yarn") を使用してクラスターで実行した場合は機能しませんでした。(system.out.println ステートメントで null が出力されます)
ドライバーからエグゼキューターにパラメーターを渡す方法はありますか。
apache-spark - Spark com.databricks.spark.csv は、node-snappy を使用して snappy 圧縮ファイルを読み込むことができません
S3 には、snappy 圧縮アルゴリズム (node-snappy
パッケージを使用) を使用して圧縮された csv ファイルがいくつかあります。Spark を使用してこれらのファイルを処理しcom.databricks.spark.csv
たいのですが、常に無効なファイル入力エラーが発生します。
コード:
エラーメッセージ:
16/09/24 21:57:25 WARN TaskSetManager: ステージ 0.0 でタスク 0.0 が失われました (TID 0、ip-10-0-32-5.ec2.internal): java.lang.InternalError: データを解凍できませんでした。入力が無効です。org.apache.hadoop.io.compress.snappy.SnappyDecompressor.decompressBytesDirect(ネイティブメソッド)で org.apache.hadoop.io.compress.snappy.SnappyDecompressor.decompress(SnappyDecompressor.java:239)で org.apache.hadoop. io.compress.BlockDecompressorStream.decompress(BlockDecompressorStream.java:88) at org.apache.hadoop.io.compress.DecompressorStream.read(DecompressorStream.java:85) at java.io.InputStream.read(InputStream.java:101) org.apache.hadoop.util.LineReader.fillBuffer(LineReader.java:180) で org.apache.hadoop.util.LineReader.readDefaultLine(LineReader.java:216) で org.apache.hadoop.util.LineReader.readLine (LineReader.java:
sparkr - sparkr 2.0 read.df がパスが存在しないというエラーをスローする
sparkr.session()
私の spark r 1.6 コードは spark2.0 で動作しません。sqlcontext パラメータを渡す代わりに作成するなどの必要な変更を行いましたsparkr.init()
…</p>
以下のコードでは、カップルフォルダーからデータフレームにデータをロードしています
動作するspark1.6のread.df
動作しない spark2.0 の read.df
上記の行は次のエラーをスローします。