php - 混合エンコードファイルの文字を変換する方法

Question

PDF ファイルからテキストをコピーして貼り付けましたが、数字が抽出されませんでした。エクスポートされた txt ファイルに対して多少の変更を加えると、次のように表示されます。

"Christina, daughter of David Brodie, on <U+F735> November <U+F731><U+F736><U+F736><U+F735>. She was the sister of"

それは読むべきです：

「1665年11月5日、デビッド・ブロディの娘、クリスティーナ。彼女はの姉妹でした」

最初は単純な検索と置換だと思っていましたが、<U+F73n>数字はエンコードされており、元のファイルを保存しましたが、それらを抽出する方法やエンコード方法さえわかりませんutf-8。mb_string何らかの方法でコードを抽出できるかどうかを確認するために、php の関数を使用しようとしましたが、うまくいきませんでした。

他の誰かがこの問題に遭遇しましたか?私を逃した簡単な解決策はありますか?

score 1 · Accepted Answer

残念ながら、U+FxxxはUnicodeの私用領域にあります。事前にマッピングを知ることを除いて、これを自動的に修正する方法はありません。サンプルのコードポイントに基づいて、文字値から0xF731を減算し、次に0x30を加算してASCII数値に変換できると思います。

php - 混合エンコード ファイルの文字を変換する方法

1 に答える 1

Related

Reference

php - 混合エンコードファイルの文字を変換する方法