r - R - データ変更とスケーラブルなコード

Question

こんにちは、ここ数日、私は小さな/大きな問題を抱えていました。

100 万行と 2 つの列 (クライアント ID と製品 ID) を持つトランザクションデータセットがあり、これをバイナリマトリックスに変換したいと考えています。reshape と spread 関数を使用しましたが、どちらの場合も 64MB の RAM を使用し、Rstudio/R がダウンしました。私は 1 つの CPU しか使用していないため、処理に多くの時間がかかります。私の質問は、スモールデータとビッグデータの間のこの移行における新たな前進は何ですか? 誰がより多くのCPUを使用できますか?

検索していくつかの解決策を見つけましたが、専門家の意見が必要です

1 - Spark R を使用していますか?

2 - H20.ai ソリューション? http://h2o.ai/product/enterprise-support/

3 - 革命分析? http://www.revolutionanalytics.com/big-data

4 - クラウドに移行しますか? マイクロソフトの紺碧のような？

必要に応じて、多くのコアを備えた仮想マシンを使用できます..しかし、このトランザクションをスムーズに行う方法を知る必要があります

私の特定の問題

私はこのdata.frameを持っています（ただし、100万行あります）

Sell<-data.frame(UserId = c(1,1,1,2,2,3,4), Code = c(111,12,333,12,111,2,3))

そして私はしました：

Sell[,3] <-1

test<-spread(Sell, Code, V3)

これは小さなデータセットで機能します..しかし、100万行では、これには長い時間（12時間）がかかり、最大RAMが64MBであるためダウンします。助言がありますか？

r - R - データ変更とスケーラブルなコード

2 に答える 2

Related

Reference