次の (AMM) の 2 行目の 5 列のように、テキスト修飾子が欠落しているテキスト ファイル (csv 形式) があります。
"A",4,"","","HIGH STREET, 22","","","L6","3AA"
"B",2957136105,98,"M12ASE7569",AMM",1,,,"F",,20010514,"CR"
"C","T","UNKNOWN","",19000101
"D",4
このコードの列をループすることで、矛盾のある行を見つけることができました:(上記をtxtに保存するだけです)
library(plyr)
a <- readLines(path) #
a <- rbind.fill(lapply(a, function(x) read.table(text=x, sep=",", as.is=T, quote="")))
> which(sapply(gregexpr("\"", a[,5]), length)==1 & grepl("\"", a[,5]))
[1] 1 2
ただし、私のファイルにはフィールド内にコンマが含まれているため(アドレスが原因で)、誤検知も発生します...
このような問題に直面したことがありますか。もしそうなら、あなたは何を思いついたのですか?