3

アラビア語のPDFがあり、Javaを使用してテキストドキュメントに解析したいと思います。私は何度も試しましたが、英語の単語は正常に解析されましたが、アラビア語の単語は解析されません。

アラビア語の単語も適切に変換するソリューションを誰かが推奨できますか?

4

2 に答える 2

2

頭に浮かぶライブラリがいくつかあります。Apache TikaiText、またはpdfboxは、多かれ少なかれ問題を解決します。ただし、言語検出をサポートし、他の種類のドキュメントも処理できるため、Tikaを一言で表す必要があります。

于 2011-03-07T09:23:06.933 に答える
1

Javaを使ったPDF操作にはiTextが使えると思います。アラビア語もサポートしています。

于 2011-03-07T09:17:33.733 に答える