0

私はpdfファイルからアラビア語のテキストを抽出するのと同じ問題を抱えています、解決策を手に入れたら誰でも助けることができますか?pdfboxで何度も試しましたが、結果がありません。

4

1 に答える 1

0

PDF からテキストを抽出する際に問題が発生する可能性があることがいくつかあります。

  1. PDFは暗号化されています。この場合、データを抽出するにはパスワードが必要です。
  2. 形式としての PDF は、実際にはテキストを抽出することを意図したものではありません。そのため、pdfbox は通常、互いに近くに配置された文字を識別し、それらを単語に結合しようとします。イメージできるように、これは簡単に失敗する可能性があります。

詳細については、この質問を確認してください。

于 2011-12-05T10:12:31.607 に答える