私はApachePDFBoxとJavaを使用してPDFを解析し、そこからすべての情報を取得しています。テキストの抽出は、英語でのみ正常に機能します。他の言語では、一部の特殊文字しか取得できません。たとえば、アラビア語の文字شを抽出すると、印刷時に文字列: "?が表示されます。コンピュータの「地域と言語」を英語からアラビア語に変更すると、正常に機能します。したがって、文字のUnicodeを抽出すると、これが解決されると思います。問題。PDFから文字のUnicodeを取得するのを手伝ってください。または、この問題を解決するためのいくつかの解決策を提案してください。
3208 次
2 に答える
2
Javaシステムのロケールを変更してみてください。Javaプログラムから、これはOS設定を変更することと同等であるはずです。
于 2012-09-26T18:05:18.603 に答える
1
プライベート文字列escape(String chars)は、文字をUnicodeに変換します。
于 2012-10-10T05:20:27.847 に答える