私は、1950 年以降、毎年 1 つの大きな CSV データ ファイルを含む米国気象サービスの Storm Data を処理しています。1999 年のファイルには、NUL 文字が埋め込まれた非常に大きな自由形式のテキスト フィールドを持つ複数の行が含まれています。(問題のあるファイルはftp://ftp.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/StormEvents_details-ftp_v1.0_d1999_c20140915.csv.gzにあります)。
R は破損した文字列データをエラーなしで処理できません。これには、R の data.frame、data.table、stringr、および stringi パッケージ関数が含まれます (試行済み)。
sed を使用して NUL のファイルをクリーンアップできますが、コードが埋め込まれた R マークダウン タイプのレポート用であるため、外部プログラムは使用しない方がよいでしょう。
提案?