PDFファイルからテキストを抽出しようとすると、いくつかの単語の間にランダムに空白が挿入されるようです。
このページのダウンロードセクションにある次のサンプルファイルでpdfbox-app-1.6.0.jar(最新バージョン)を使用しています:http: //www.sheffield.gov.uk/roads/children/parents/6-11/pedestrian -トレーニング
私は他のいくつかのPDFファイルで試しましたが、いくつかのページで同じことをしているようです。
私は次のことをします:
java -jar pdfbox-app-1.6.0.jar ExtractText -force -console〜/ Desktop / ped training pdf.pdf
ダウンロードしたファイルに、コンソールの結果に間違って挿入された次のスペースが表示されます。「•子供が安全に歩いて学校に行くことができれば、混雑を減らすことができます。」
「•後の人生のために良い習慣を身につけます。」
「www.sheffield.gov.uk」
「ThinkAhead!、これはに基づいています」
などなど。
ご覧のとおり、上記のいくつかの単語の間にスペースがありますが、理由はありません。
私はubuntuを使用しており、SunのJDK1.6を実行しています。
私はこれをいくつかの異なるPDFファイルで試し、フォーラムで解決策を探してみました。同様のバグがありましたが、すべて解決されたようです。
ヘルプがあれば、または他の誰かが同じ問題を抱えている場合はコメントしてください。これは、検索のためにコンテンツを適切に索引付けする際に大きな問題を引き起こしています。