0

PDF ファイルからテキストをコピーして貼り付けましたが、数字が抽出されませんでした。エクスポートされた txt ファイルに対して多少の変更を加えると、次のように表示されます。

"Christina, daughter of David Brodie, on <U+F735> November <U+F731><U+F736><U+F736><U+F735>. She was the sister of" 

それは読むべきです:

「1665年11月5日、デビッド・ブロディの娘、クリスティーナ。彼女はの姉妹でした」

最初は単純な検索と置換だと思っていましたが、<U+F73n>数字はエンコードされており、元のファイルを保存しましたが、それらを抽出する方法やエンコード方法さえわかりませんutf-8mb_string何らかの方法でコードを抽出できるかどうかを確認するために、php の関数を使用しようとしましたが、うまくいきませんでした。

他の誰かがこの問題に遭遇しましたか?私を逃した簡単な解決策はありますか?

4

1 に答える 1

1

残念ながら、U+FxxxはUnicodeの私用領域にあります。事前にマッピングを知ることを除いて、これを自動的に修正する方法はありません。サンプルのコードポイントに基づいて、文字値から0xF731を減算し、次に0x30を加算してASCII数値に変換できると思います。

于 2013-01-23T17:41:56.130 に答える