大規模なデータセット (350 万行と 40 列) を扱っており、いくつかの値を消去する必要があるため、データに基づいてモデルを作成するときに必要な他のパラメーターを計算できるようになります。
問題は、これまで使用してきた for ループを適用するのに永遠に時間がかかることです。そのため、ff パッケージを使用してみようと思いました。データフレームはデータと呼ばれ、銀行の一連の顧客情報で構成されています。.csv ファイルとしてインポートされました。私がする必要があるのは、AverageStanding 変数が負の場合、すべての顧客 (Serial というラベルが付いている) を削除することです。
> ffd<-as.ffdf(data)
> lastserial = tail(ffd$Serial,1)
> for(k in 1:lastserial){
+ tempvecWith <- vector()
+ tempvecWith <- ffd[ffd$Serial==k, ]$AverageStanding
+ if(any(tempvecWith < 0)){
+ ffd_clean<- ffd[!ffd$Serial ==k, ]
+ }
+ }
これは私が受け取っているエラーです:
Error in as.hi.integer(x, maxindex = maxindex, dim = dim, vw = vw, pack = pack) :
NAs in as.hi.integer
これらのエラーを回避する方法についてのアイデアはありますか?