r - read.big.matrix による R のビッグデータの読み取り

Question

を使用して、次元 3131875*5 のデータを r で読み取っていますread.big.matrix。私のデータには、日付変数を含む文字列と数値列の両方があります。私が使用すべきコマンドは

as1 <- read.big.matrix("C:/Documents and Settings/Arundhati.Mukherjee/My Documents/Arundhati/big data/MB07_Arundhati/sample2.txt",
                       header=TRUE, 
                       backingfile="session.bin",
                       descriptorfile="session.desc",
                       type = NA)

しかしtype = NA、この場合、R では受け入れられず、エラーが発生します。

Error in filebacked.big.matrix(nrow = nrow, ncol = ncol, type = type,  : 
  Problem creating filebacked matrix.
In addition: Warning messages:
1: In na.omit(as.integer(firstLineVals)) : NAs introduced by coercion
2: In na.omit(as.double(firstLineVals)) : NAs introduced by coercion
3: In read.big.matrix("C:/Documents and Settings/Arundhati.Mukherjee/My Documents/Arundhati/big data/MB07_Arundhati/sample2.txt",  :
  Because type was not specified, we chose double based on the first line of data.

ここに何があるべきかを知る必要がありtypeます。次のようなオプションを試しましdoubleたが、同じエラーが発生します。

私を助けてください。

score 3 · Accepted Answer

差出人?read.big.matrix：

ファイルには、1つのアトミックタイプ（たとえば、すべて整数）のみを含める必要があります。

したがって、文字、数値、整数、日付などの組み合わせでデータを読み取ることはできません。たとえば、別のプログラムを使用して文字変数を整数表現に変換するなど、ファイルに対していくつかの作業を行うことができます。 Rの係数に変換）。

編集：

bigmemoryのWebサイトには、Pythonスクリプトを使用してデータを前処理し、文字情報を整数に変更する例があります。スクリプトは特定のデータセット用に作成されていますが、データのガイドラインとして使用できる可能性があります。

r - read.big.matrix による R のビッグデータの読み取り

1 に答える 1

Related

Reference