大規模な (>150MB) 固定幅データ ファイルのコレクションを分析しています。read.fwf() を使用して 100 行のチャンク (各行は 7385 文字) でゆっくりとそれらを読み取り、さらに操作するためにそれらをリレーショナル データベースにプッシュしました。問題は、テキスト ファイルにときどき不安定なマルチバイト文字が含まれていることです (たとえば、「U」の代わりに、システムが Unicode U+F8FF に割り当てるものは何でもデータ ファイルに含まれているなど、煩わしいことがよくあります。OS X では、これはリンゴのシンボルですが、それがクロスプラットフォームの標準であるかどうかはわかりません)。その場合、次のようなエラーが発生します。
'NTY <20> MAINE
000008 で無効なマルチバイト文字列 [...]
それは「COUNTY」という単語の後半部分であるはずですが、前述のように U は不安定でした。(誰かが役に立つと思うなら、より詳細なコードとデータを喜んで提供します。)
すべてのコーディングを R で行いたいのですが、シングルバイトを強制する方法がわかりません。したがって、私の質問の件名の部分: 誤ったマルチバイト文字を含むテキスト ファイルからシングルバイト ascii を強制する簡単な方法はありますか?
それとも、これに対処するさらに良い方法があるのでしょうか (R からシステム レベルで grep を呼び出して、誤ったマルチバイト文字を探し出す必要があります)。
どんな助けでも大歓迎です!