Rのデータフレームに読み込もうとしている大きな(> 1GB)CSVファイルがあります。
数値以外のフィールドは二重引用符で囲み、内部のコンマが区切り文字として解釈されないようにします。それはいいことです。ただし、 のように、一致しない二重引用符がエントリに含まれることもあり"2" Nails"
ます。
これを回避する最善の方法は何ですか? 私の現在の計画は、 awk のようなテキスト プロセッサを使用して、引用文字を二重引用符"
から pipe のような競合しない文字に変更すること|
です。引用符文字を見つけるための私のヒューリスティックは、コンマの隣にある二重引用符です。
gawk '{gsub(/(^\")|(\"$)/,"|");gsub(/,\"/,",|");gsub(/\",/,"|,");print;}' myfile.txt > newfile.txt
この質問read.csv
は関連していますが、ファイルに区切り記号のないコンマが引用符で囲まれているため、解決策 ( of の引数quote=""
) は実行できません。