問題タブ [sparkr]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
764 参照

r - Spark DataFrame の SparkR collect() および head() エラー: 引数は異なる行数を意味します

HDFS システムから寄木細工のファイルを読み取りました。

この問題についていくつかのスレッドを読みました。しかし、それは私の場合ではありません。実際、寄木細工のファイルからテーブルを読み取っただけhead()ですcollect()。私の寄木細工のテーブルは次のようなものです:

私はspark-1.4.0-bin-hadoop2.6を使用しており、これをクラスターで実行します

ローカルでも試しましたが、同じ問題があります。

また、Scala でこの寄木細工のファイルを読み取ろうとしました。そして、collect() 操作を実行します。すべてがうまくいっているようです。したがって、SparkR に固有の問題である必要があります。

0 投票する
1 に答える
1548 参照

r - sparkR のシリアル化解除エラー

私はSparkR(および一般的な並列化)に非常に慣れていません。私はSparkRをローカルで実行しています(これはsparkの正しい使用法ではないことはわかっていますが、始めたばかりです)。コードの一部をsparkRで書き直そうとしましたが、collectの数を増やすと次のエラーが発生しますサンプルとして (サンプル数が少ない場合はエラーなし):

おそらく私のメモリ不足が原因である他のエラーは次のとおりです。

FIRST エラーに関するヘルプをいただければ幸いです (並列化で numSlices に異なる値を設定することでエラーが発生したにもかかわらず、それらが何らかの形で関連している可能性があると考えたため、2 番目のエラーを投稿しました)。最初のものは、このシリアライゼーションの問題を引き起こす、spark、sparkR、および R の間のバージョンの非互換性である可能性があると思います。別のバージョンをインストールしようとしましたが、すぐに依存関係の解決に行き詰まりました。

これは、SparkR で行っていることをシミュレートするサンプル スクリプトです (input.len > 950 でエラーが生成されます)。

エラーの完全なレポートは次のとおりです。

SparkR のインストールに本当に問題がありますか? はいの場合、少数のサンプルに対してどのように実行されますか?

どうもありがとう

0 投票する
1 に答える
1588 参照

apache-spark - sparkRで2つのデータフレーム列をバインドするには?

spark 1.4 の SparkR でデータフレームの 2 つの列をバインドする方法

ティア、アルン

0 投票する
1 に答える
831 参照

r - R コードからのデータの保存

hdfs を介して ec2 クラスターで動作するように、spark の例を少し変更しました。しかし、寄木細工のファイルへの保存で動作する例を取得しただけです。

saveDFの代わりに使用するとsaveAsParquetFile、hdfs に空のファイルしか取得されません。

データフレームをテキスト ファイル (json/csv/...) として保存するにはどうすればよいですか?