4

私はApachePDFBoxとJavaを使用してPDFを解析し、そこからすべての情報を取得しています。テキストの抽出は、英語でのみ正常に機能します。他の言語では、一部の特殊文字しか取得できません。たとえば、アラビア語の文字شを抽出すると、印刷時に文字列: "?が表示されます。コンピュータの「地域と言語」を英語からアラビア語に変更すると、正常に機能します。したがって、文字のUnicodeを抽出すると、これが解決されると思います。問題。PDFから文字のUnicodeを取得するのを手伝ってください。または、この問題を解決するためのいくつかの解決策を提案してください。

4

2 に答える 2

2

Javaシステムのロケールを変更してみてください。Javaプログラムから、これはOS設定を変更することと同等であるはずです。

于 2012-09-26T18:05:18.603 に答える
1

http://grepcode.com/file/repo1.maven.org/maven2/org.apache.pdfbox/pdfbox/1.6.0/org/apache/pdfbox/util/PDFText2HTML.java

プライベート文字列escape(String chars)は、文字をUnicodeに変換します。

于 2012-10-10T05:20:27.847 に答える