私は中国語のドキュメントを持っていますが、ドキュメントにはデコードのエラーのために多くのエラー文字列が残っています。それらはすべてfffd
、ff10
または何かのように見えます。
ここで、これらのエラー文字列の発生をすべて削除する必要があるため、それらのパターンを知る必要がありますが、有用な情報が見つかりません。私が今知っているように見えるのは、それらが 4 文字で構成され、'ff' で始まるということだけですが、最後の 2 つは不明です。
たとえば、エラー文字列は次のようになり300dfffd
ますafffdnormalff0cword
。
上記の 2 つの単語に必要なのは、300d
とanormalword
です。
ff
で始まる通常の単語があるため、すべての で始まる 4 文字パターンを削除することはできません。
それらを表すことができる単一の re パターンはありますか? それとも他におすすめの方法はありますか?ありがとう。
ところで、私はこれを Python で行っているので、Pythonic の方法は大歓迎です!
ありがとう。
更新:</p>
パターンを使用することff(fd|\d\w|\w\d)
になり、ほとんどすべてのエラーを削除しました。
ff07
とのようないくつかのエラーff50
は、re パターンで削除されているはずなので、奇妙なことに削除されませんが、そのわずかなエラーは私の許容範囲内です。