PDFからHTMLへのOCR変換を経たドキュメントがいくつかあります。そのため、コンバーターが混乱した場所(つまり、楕円など)にランダムなUnicode句読点がたくさん含まれることになりました。また、英語以外の文字も正しく含まれていますが、éなどのアルファベット文字やロシア語文字などがあります...
(任意の言語のアルファベットから)任意のUnicodeアルファベット文字に一致する正規表現を作成する方法はありますか?または、アルファベット以外の文字にのみ一致するものですか?どちらも本当に役に立ち、素晴らしいでしょう。それが何かを変えるなら、私はPerlを使っています。ありがとう!