r - 2 つの csv ファイルが異なるデータ型を返す

Question

私は2つのcsvデータファイルを持っています。1 分バーの 1 つと 5 分バーのもう 1 つ。これらのファイルは両方とも同じ形式です。

ファイル1は

> 2007-01-02 10:00:00.000,NIFTY,ABB,2007-01-02 10:00:00.000,750.4,750.4,750,750.2
  2007-01-02 10:01:00.000,NIFTY,ABB,2007-01-02 10:01:00.000,750.38,750.4,749.8,749.8
  2007-01-02 10:02:00.000,NIFTY,ABB,2007-01-02 10:02:00.000,749.8,750,749.6,750
  2007-01-02 10:03:00.000,NIFTY,ABB,2007-01-02 10:03:00.000,749.6,752.4,749.6,752
  2007-01-02 10:04:00.000,NIFTY,ABB,2007-01-02 10:04:00.000,752,755.8,752,754.2
  2007-01-02 10:05:00.000,NIFTY,ABB,2007-01-02 10:05:00.000,754.02,755,752.05,753.6
  2007-01-02 10:06:00.000,NIFTY,ABB,2007-01-02 10:06:00.000,753,753,751,751
  2007-01-02 10:07:00.000,NIFTY,ABB,2007-01-02 10:07:00.000,751,751.62,750.5,751
  2007-01-02 10:08:00.000,NIFTY,ABB,2007-01-02 10:08:00.000,750.8,751,750.2,750.62

ファイル2は

 > 2007-01-02 10:00:00.000,NIFTY,ABB,2007-01-02 10:00:00.000,750.2,754.2,749.8,753.6
   2007-01-02 10:05:00.000,NIFTY,ABB,2007-01-02 10:05:00.000,753.6,753.6,750.62,752.8
   2007-01-02 10:10:00.000,NIFTY,ABB,2007-01-02 10:10:00.000,752.8,752.8,750.2,751.5
   2007-01-02 10:15:00.000,NIFTY,ABB,2007-01-02 10:15:00.000,751.5,752,751,751.6
   2007-01-02 10:20:00.000,NIFTY,ABB,2007-01-02 10:20:00.000,751.6,751.6,750.8,751
   2007-01-02 10:25:00.000,NIFTY,ABB,2007-01-02 10:25:00.000,751,751.2,749,749
   2007-01-02 10:30:00.000,NIFTY,ABB,2007-01-02 10:30:00.000,749,751.8,749,751.8
   2007-01-02 10:35:00.000,NIFTY,ABB,2007-01-02 10:35:00.000,751.8,752,751.1,751.4

ここで a <- read.csv("file1.csv") を実行します

class(a[,1:4]) は因数

class(a[,5:8]) は数値です

ファイル2の場合

b <- read.csv("file2.csv")

class(b[,1:4]) は因数

class(b[,5:8]) は因数です。

列 5:8 のクラスが要因です。この因子タイプのデータでは、分析を進めることができません。何か案が。

score 2 · Accepted Answer

サンプルデータを 2 つのファイルに貼り付け、これらのファイルの両方をを使用して読み取るとread.csv()、両方とも最初の 4 つの列が因子として、4 つの列の 2 番目のグループが数値として含まれていたため、残念ながら問題を再現できませんでした。あなたの例になかったファイルの何かかもしれません。

「file2.csv」を次のように変更したとき:

2007-01-02 10:00:00.000,NIFTY,ABB,2007-01-02 10:00:00.000,750.2,754.2,749.8,753.6
2007-01-02 10:05:00.000,NIFTY,ABB,2007-01-02 10:05:00.000,753.6,753.6,750.62,752.8
2007-01-02 10:10:00.000,NIFTY,ABB,2007-01-02 10:10:00.000,752.8,752.8,750.2,751.5
2007-01-02 10:15:00.000,NIFTY,ABB,2007-01-02 10:15:00.000,751.5,752,751,751.6
2007-01-02 10:20:00.000,NIFTY,ABB,2007-01-02 10:20:00.000,751.6,751.6,750.8,751
2007-01-02 10:25:00.000,NIFTY,ABB,2007-01-02 10:25:00.000,751,751.2,749,749
2007-01-02 10:30:00.000,NIFTY,ABB,2007-01-02 10:30:00.000,749,751.8,749,751.8
2007-01-02 10:35:00.000,NIFTY,ABB,2007-01-02 10:35:00.000,a,b,c,d

...確かに、最後の 4 列が要因として読み込まれたことがわかったので、「file2.csv」のこれらの列のどこかに数値以外のデータがある可能性があることを示唆しています。

また、おそらく次のようなものを使用したいことにも注意してください。

a<-read.csv("file1.csv",header=F)
b<-read.csv("file2.csv",header=F)

...最初の行が見出しに変換されるのを避けるために、しかし、私が持っていたかどうかにheader=Fかかわらず、結果は変わりませんでした。参考までに、Windows 7、64 ビットで R 2.15.3 を使用しています。

r - 2 つの csv ファイルが異なるデータ型を返す

2 に答える 2

Related

Reference