こんにちは、ここ数日、私は小さな/大きな問題を抱えていました。
100 万行と 2 つの列 (クライアント ID と製品 ID) を持つトランザクション データセットがあり、これをバイナリ マトリックスに変換したいと考えています。reshape と spread 関数を使用しましたが、どちらの場合も 64MB の RAM を使用し、Rstudio/R がダウンしました。私は 1 つの CPU しか使用していないため、処理に多くの時間がかかります。私の質問は、スモール データとビッグ データの間のこの移行における新たな前進は何ですか? 誰がより多くのCPUを使用できますか?
検索していくつかの解決策を見つけましたが、専門家の意見が必要です
1 - Spark R を使用していますか?
2 - H20.ai ソリューション? http://h2o.ai/product/enterprise-support/
3 - 革命分析? http://www.revolutionanalytics.com/big-data
4 - クラウドに移行しますか? マイクロソフトの紺碧のような?
必要に応じて、多くのコアを備えた仮想マシンを使用できます..しかし、このトランザクションをスムーズに行う方法を知る必要があります
私の特定の問題
私はこのdata.frameを持っています(ただし、100万行あります)
Sell<-data.frame(UserId = c(1,1,1,2,2,3,4), Code = c(111,12,333,12,111,2,3))
そして私はしました:
Sell[,3] <-1
test<-spread(Sell, Code, V3)
これは小さなデータセットで機能します..しかし、100万行では、これには長い時間(12時間)がかかり、最大RAMが64MBであるためダウンします。助言がありますか?