0

read.csv.ffdf を使用して、巨大な (~5GB) .csv ファイルを R にロードしようとしています。コマンドは次のとおりです。

npi <- read.csv.ffdf(file="C:/Users/DSA/Dropbox/Team Shared Files/People/Ross/NPI_Parse/Zips/npi_full.csv", VERBOSE=TRUE, first.rows=10000,next.rows=100000,colClasses=NA)

コマンドがしばらく実行された後、次のエラーがスローされます。オプションですが、適用方法がわかりません. データはテキストと数値の両方であり、それが問題を引き起こしている可能性があると思います. csv のスクリーンショットをアップロードできれば役に立ちますが、LibreOffice で開くには時間がかかります.

何か裏技を知っている人はいますか?

4

1 に答える 1

1

のドキュメントからread.csv.ffdf

transFUN: NULL または各 data.frame チャンクで FUN を使用して読み取った後、さらに処理する前 (フィルタリング、変換など) に呼び出される関数。

列の 1 つが要因から数値に、またはその逆に変化した場合は、transFUN を使用してそれが要因であることを確認してください

npi <- read.csv.ffdf(
  file="C:/Users/DSA/Dropbox/Team Shared Files/People/Ross/NPI_Parse/Zips/npi_full.csv",
  VERBOSE=TRUE, first.rows=10000,next.rows=100000, 
  transFUN=function(x){
    x$yourcolumnwiththeerror <- factor(as.character(x$yourcolumnwiththeerror))
    x
  })
于 2014-03-14T08:28:11.143 に答える