悪いデータを含むファイルがあり (それ自体はいくつかのランダムな SUB 制御文字... それらは書記素の一部ではありません)、正規表現検索パターンを使用してそれらを削除しようとしていました:
Text to Find: \x1a
Replace with:
これにより、SUB 文字が削除されますが、アクセントのある他の文字 (具体的には é と í) も台無しになります。
SUB 制御文字 (コード ポイント) を単独で削除する正規表現はありますか? (例: 書記素の一部ではない)
SAMPLE DATA (「␚」が表示されているすべての場所を SUB 制御文字に置き換えます。
A,André,Fernandez
A,Daniel,O␚Shea
A,Ibhlín,Flanders
A,Donny,O␚'Donnell
A,Spencer,O'Maley
サンプル データ 現在の正規表現を使用した場合の出力:
A,Andr�,Fernandez
A,Daniel,OShea
A,Ibhl�n,Flanders
A,Donny,O'Donnell
A,Spencer,O'Maley
必要なデータ出力
A,André,Fernandez
A,Daniel,OShea
A,Ibhlín,Flanders
A,Donny,O'Donnell
A,Spencer,O'Maley