java - javaとPDFBoxを使用してPDFから文字のUnicodeを取得する方法

Question

私はApachePDFBoxとJavaを使用してPDFを解析し、そこからすべての情報を取得しています。テキストの抽出は、英語でのみ正常に機能します。他の言語では、一部の特殊文字しか取得できません。たとえば、アラビア語の文字شを抽出すると、印刷時に文字列： "？が表示されます。コンピュータの「地域と言語」を英語からアラビア語に変更すると、正常に機能します。したがって、文字のUnicodeを抽出すると、これが解決されると思います。問題。PDFから文字のUnicodeを取得するのを手伝ってください。または、この問題を解決するためのいくつかの解決策を提案してください。

score 2 · Accepted Answer

Javaシステムのロケールを変更してみてください。Javaプログラムから、これはOS設定を変更することと同等であるはずです。

score 1 · Accepted Answer

http://grepcode.com/file/repo1.maven.org/maven2/org.apache.pdfbox/pdfbox/1.6.0/org/apache/pdfbox/util/PDFText2HTML.java

プライベート文字列escape（String chars）は、文字をUnicodeに変換します。

java - javaとPDFBoxを使用してPDFから文字のUnicodeを取得する方法

2 に答える 2

Related

Reference