sql - 混合エンコーディングファイルから PostgreSQL テーブルにインポートする方法

Question

30 GB のテキストファイルがあります。ファイルのエンコーディングは UTF8 ですが、一部の Windows-1252 文字も含まれています。そのため、インポートしようとすると、次のエラーが発生します。

ERROR:  invalid byte sequence for encoding "UTF8": 0x9b

どうすればこれを修正できますか?

このファイルに対して「ファイル」コマンドを実行すると、エンコードが UTF8 であると表示されます。ただし、UTF8 以外のバイトシーケンスも含まれています。たとえば、しばらくして \copy コマンドを実行すると、この行に上記のエラーが表示されます。

0B012234    Basic study of <img src="/fulltext-image.asp?format=htmlnonpaginated&src=323K744431152658_html\233_2    basic study of img src fulltext image asp format htmlnonpaginated src 323k744431152658_html 233_2   1975        Semigroup Forum semigroup forum 04861B53        19555

score 1 · Accepted Answer

この問題はバックスラッシュ ( \) が原因です。
バックスラッシュを特殊文字として扱わない CSV 形式を使用します。

\copy t from myfile.txt with csv quote E'\x1' delimiter E'\x2'

sql - 混合エンコーディング ファイルから PostgreSQL テーブルにインポートする方法

1 に答える 1

Related

Reference

sql - 混合エンコーディングファイルから PostgreSQL テーブルにインポートする方法