大きな csv データファイル (, で区切られている) を読み込もうとしていますが、次のような行でスタックし続けます: 生ファイルへのリンク: " http://daniels-pull.universityofdenv.netdna-cdn.com /assets/GeneralOccurrencesAll.csv "
| RIN | UCR_Group | Loc |
|--------|-----------|---------------------------------------------|
|490658 | Property | 400 BLOCK 17TH ST, 5TH FL |
|506928 | Disorder | 1400 BLOCK W COLORADO AVE, COLORADO SPRINGS |
ご覧のとおり、ファイルの区切り文字も列で使用されています。列の区切り文字を正規表現として指定してファイルを読み取る方法はありますか、または read.fwf を使用して各フィールドの最大長を調べ、それを使用してデータを解析する必要がありますか? 現在、これは私がこれまでに思いついた私のコードです:
datafile <- "http://daniels-pull.universityofdenv.netdna-cdn.com/assets/GeneralOccurrencesAll.csv"
new <-readr::read_delim(datafile, sep ='[\\S],[\\S]')
new <-read.table(datafile, sep ='[\\S],[\\S]' )
read.fwf を使用する必要がありますか、それとも問題のある列を手動で引き出す必要がありますか? どんな助けでも大歓迎です。
編集:
ボーナス ポイントについては、csv ファイル内の不適切な列や、この場合のようにファイルの構造を台無しにする可能性のあるデータを検出する関数を構築したいと考えています。そうすれば、テキスト エディターをいじる必要がなくなり、ファイル内のこれらのエラーをプログラムで見つけることができます。このようなものを構築する方法について考えていますか?