PDF ファイルからテキストをコピーして貼り付けましたが、数字が抽出されませんでした。エクスポートされた txt ファイルに対して多少の変更を加えると、次のように表示されます。
"Christina, daughter of David Brodie, on <U+F735> November <U+F731><U+F736><U+F736><U+F735>. She was the sister of"
それは読むべきです:
「1665年11月5日、デビッド・ブロディの娘、クリスティーナ。彼女はの姉妹でした」
最初は単純な検索と置換だと思っていましたが、<U+F73n>
数字はエンコードされており、元のファイルを保存しましたが、それらを抽出する方法やエンコード方法さえわかりませんutf-8
。mb_string
何らかの方法でコードを抽出できるかどうかを確認するために、php の関数を使用しようとしましたが、うまくいきませんでした。
他の誰かがこの問題に遭遇しましたか?私を逃した簡単な解決策はありますか?