java - pdfはjavaのテキストに解析します

Question

アラビア語のPDFがあり、Javaを使用してテキストドキュメントに解析したいと思います。私は何度も試しましたが、英語の単語は正常に解析されましたが、アラビア語の単語は解析されません。

アラビア語の単語も適切に変換するソリューションを誰かが推奨できますか？

score 2 · Accepted Answer

頭に浮かぶライブラリがいくつかあります。Apache Tika、iText、またはpdfboxは、多かれ少なかれ問題を解決します。ただし、言語検出をサポートし、他の種類のドキュメントも処理できるため、Tikaを一言で表す必要があります。

score 1 · Accepted Answer

Javaを使ったPDF操作にはiTextが使えると思います。アラビア語もサポートしています。

2 に答える 2