私は研究に大規模なデータセット (4.72GB) を使用していますが、大規模なデータセット (最大 10GB の範囲) を処理すると思われる R の「bigmemory」パッケージを発見しました。ただし、read.big.matrix を使用して csv ファイルを読み取ると、次のエラーが発生します。
> x <- read.big.matrix("x.csv", type = "integer", header=TRUE, backingfile="file.bin", descriptorfile="file.desc")
Error in read.big.matrix("x.csv", type = "integer", header = TRUE,
: Dimension mismatch between header row and first data row.
問題は、csv ファイルがいっぱいではないことだと思います。つまり、いくつかのセルに値がありません。header = TRUE を削除しようとしましたが、R はセッションを中止して再起動します。
read.big.matrix を使用してデータが欠落している大きな csv ファイルを読み取った経験のある人はいますか?