問題タブ [sparkr]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - Spark DataFrame の SparkR collect() および head() エラー: 引数は異なる行数を意味します
HDFS システムから寄木細工のファイルを読み取りました。
この問題についていくつかのスレッドを読みました。しかし、それは私の場合ではありません。実際、寄木細工のファイルからテーブルを読み取っただけhead()
ですcollect()
。私の寄木細工のテーブルは次のようなものです:
私はspark-1.4.0-bin-hadoop2.6を使用しており、これをクラスターで実行します
ローカルでも試しましたが、同じ問題があります。
また、Scala でこの寄木細工のファイルを読み取ろうとしました。そして、collect() 操作を実行します。すべてがうまくいっているようです。したがって、SparkR に固有の問題である必要があります。
r - sparkR のシリアル化解除エラー
私はSparkR(および一般的な並列化)に非常に慣れていません。私はSparkRをローカルで実行しています(これはsparkの正しい使用法ではないことはわかっていますが、始めたばかりです)。コードの一部をsparkRで書き直そうとしましたが、collectの数を増やすと次のエラーが発生しますサンプルとして (サンプル数が少ない場合はエラーなし):
おそらく私のメモリ不足が原因である他のエラーは次のとおりです。
FIRST エラーに関するヘルプをいただければ幸いです (並列化で numSlices に異なる値を設定することでエラーが発生したにもかかわらず、それらが何らかの形で関連している可能性があると考えたため、2 番目のエラーを投稿しました)。最初のものは、このシリアライゼーションの問題を引き起こす、spark、sparkR、および R の間のバージョンの非互換性である可能性があると思います。別のバージョンをインストールしようとしましたが、すぐに依存関係の解決に行き詰まりました。
これは、SparkR で行っていることをシミュレートするサンプル スクリプトです (input.len > 950 でエラーが生成されます)。
エラーの完全なレポートは次のとおりです。
SparkR のインストールに本当に問題がありますか? はいの場合、少数のサンプルに対してどのように実行されますか?
どうもありがとう
apache-spark - sparkRで2つのデータフレーム列をバインドするには?
spark 1.4 の SparkR でデータフレームの 2 つの列をバインドする方法
ティア、アルン
r - R コードからのデータの保存
hdfs を介して ec2 クラスターで動作するように、spark の例を少し変更しました。しかし、寄木細工のファイルへの保存で動作する例を取得しただけです。
saveDF
の代わりに使用するとsaveAsParquetFile
、hdfs に空のファイルしか取得されません。
データフレームをテキスト ファイル (json/csv/...) として保存するにはどうすればよいですか?