1

私は研究に大規模なデータセット (4.72GB) を使用していますが、大規模なデータセット (最大 10GB の範囲) を処理すると思われる R の「bigmemory」パッケージを発見しました。ただし、read.big.matrix を使用して csv ファイルを読み取ると、次のエラーが発生します。

> x <- read.big.matrix("x.csv", type = "integer", header=TRUE, backingfile="file.bin", descriptorfile="file.desc")

Error in read.big.matrix("x.csv", type = "integer", header = TRUE,  
: Dimension mismatch between header row and first data row.

問題は、csv ファイルがいっぱいではないことだと思います。つまり、いくつかのセルに値がありません。header = TRUE を削除しようとしましたが、R はセッションを中止して再起動します。

read.big.matrix を使用してデータが欠落している大きな csv ファイルを読み取った経験のある人はいますか?

4

2 に答える 2

1

問題を直接解決するわけではないかもしれませんが、私のパッケージがfilematrix役立つかもしれません。関連する関数はfm.create.from.text.file.

データファイルで機能するかどうか教えてください。

于 2015-11-19T19:47:22.387 に答える