16

多くの欠損値を含む .csv データセットがあり、テーブルを読み込むときに R にそれらをすべて同じ方法 (「正しい」方法) で認識させたいと思います。私は以下を使用しています:

import = read.csv("/Users/dataset.csv", 
                  header =T, na.strings=c(""))

このスクリプトはすべての空のセルを何かで埋めますが、一貫性がありません。データを で見るとhead(import)、欠落しているセルが で埋められ、<NA>欠落しているセルが で埋められていNAます。データセットの分析を開始するときに R が欠損値を識別するこれら 2 つの方法を異なる方法で扱うのではないかと心配しているため、これらの欠損値をインポートに一様に読み込ませたいと考えています。

最後に、私の csv ファイルの一部の欠損値は、ピリオドのみで表されます。また、R にインポートするときに、これらの期間が正しい欠損値表記で表されるようにしたいと考えています。

4

2 に答える 2

21

<NA>vsNAは、列の一部が文字であり、一部が数値であることを意味します。それだけです。絶対に何も悪いことではありません。

ベンが上で述べたように、csv の欠損値の一部が単一のピリオドで表されている場合、次の方法でs.として扱われる値のベクトルを指定できます。NA

na.strings=c("",".","NA")

への引数としてread.csv

于 2013-07-07T01:59:10.737 に答える