問題タブ [sparkr]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

762 問題

0 投票する

0 に答える

764 参照

r - Spark DataFrame の SparkR collect() および head() エラー: 引数は異なる行数を意味します

HDFS システムから寄木細工のファイルを読み取りました。

この問題についていくつかのスレッドを読みました。しかし、それは私の場合ではありません。実際、寄木細工のファイルからテーブルを読み取っただけhead()ですcollect()。私の寄木細工のテーブルは次のようなものです：

私はspark-1.4.0-bin-hadoop2.6を使用しており、これをクラスターで実行します

ローカルでも試しましたが、同じ問題があります。

また、Scala でこの寄木細工のファイルを読み取ろうとしました。そして、collect() 操作を実行します。すべてがうまくいっているようです。したがって、SparkR に固有の問題である必要があります。

2015-07-22T06:40:42.877

0 投票する

1 に答える

1548 参照

r - sparkR のシリアル化解除エラー

私はSparkR（および一般的な並列化）に非常に慣れていません。私はSparkRをローカルで実行しています（これはsparkの正しい使用法ではないことはわかっていますが、始めたばかりです）。コードの一部をsparkRで書き直そうとしましたが、collectの数を増やすと次のエラーが発生しますサンプルとして (サンプル数が少ない場合はエラーなし):

おそらく私のメモリ不足が原因である他のエラーは次のとおりです。

FIRST エラーに関するヘルプをいただければ幸いです (並列化で numSlices に異なる値を設定することでエラーが発生したにもかかわらず、それらが何らかの形で関連している可能性があると考えたため、2 番目のエラーを投稿しました)。最初のものは、このシリアライゼーションの問題を引き起こす、spark、sparkR、および R の間のバージョンの非互換性である可能性があると思います。別のバージョンをインストールしようとしましたが、すぐに依存関係の解決に行き詰まりました。

これは、SparkR で行っていることをシミュレートするサンプルスクリプトです (input.len > 950 でエラーが生成されます)。

エラーの完全なレポートは次のとおりです。

SparkR のインストールに本当に問題がありますか? はいの場合、少数のサンプルに対してどのように実行されますか?

どうもありがとう

r serialization parallel-processing sparkr

2015-07-23T02:01:04.440

0 投票する

1 に答える

1588 参照

apache-spark - sparkRで2つのデータフレーム列をバインドするには?

spark 1.4 の SparkR でデータフレームの 2 つの列をバインドする方法

ティア、アルン

apache-spark apache-spark-sql sparkr

2015-07-23T13:44:09.930

0 投票する

1 に答える

831 参照

r - R コードからのデータの保存

hdfs を介して ec2 クラスターで動作するように、spark の例を少し変更しました。しかし、寄木細工のファイルへの保存で動作する例を取得しただけです。

saveDFの代わりに使用するとsaveAsParquetFile、hdfs に空のファイルしか取得されません。

データフレームをテキストファイル (json/csv/...) として保存するにはどうすればよいですか?

r apache-spark sparkr

2015-07-23T15:15:48.487

1 2 3 4 5 6 7 8 9 10

問題タブ [sparkr]

r - Spark DataFrame の SparkR collect() および head() エラー: 引数は異なる行数を意味します

r - sparkR のシリアル化解除エラー

apache-spark - sparkRで2つのデータフレーム列をバインドするには?

r - R コードからのデータの保存

Reference