アラビア語のPDFがあり、Javaを使用してテキストドキュメントに解析したいと思います。私は何度も試しましたが、英語の単語は正常に解析されましたが、アラビア語の単語は解析されません。
アラビア語の単語も適切に変換するソリューションを誰かが推奨できますか?
アラビア語のPDFがあり、Javaを使用してテキストドキュメントに解析したいと思います。私は何度も試しましたが、英語の単語は正常に解析されましたが、アラビア語の単語は解析されません。
アラビア語の単語も適切に変換するソリューションを誰かが推奨できますか?
頭に浮かぶライブラリがいくつかあります。Apache Tika、iText、またはpdfboxは、多かれ少なかれ問題を解決します。ただし、言語検出をサポートし、他の種類のドキュメントも処理できるため、Tikaを一言で表す必要があります。
Javaを使ったPDF操作にはiTextが使えると思います。アラビア語もサポートしています。