Apache Solrを使用してpdfを検索できるアプリケーションを作成しています。PDFで特定の用語を見つけるのに苦労していました。
列の単語が追加されていることに気付きました。
例
Column1 | Column2
stack | overflow
ここで、PdftextStripper は抽出されたテキストとしてスタックオーバーフローを表示することがあります。これにより、solr で不適切なトキナゼーションが発生し、用語を見つけることができなくなります。(はい、ワイルドカードを使用できることはわかっていますが、フレーズ クエリでは機能しません)
ソースを調べて、問題の原因を確認しました。しかし、writePage メソッドはスペースを推測する必要があるようです。非常に複雑に見えるため、これを実際に変更することはできません。
列を含む pdf から適切なテキストを抽出するための他の解決策はありますか?
- 他のプログラムの何らかの変換かもしれません。
- 多分pdfboxのパッチ。
- はい、同様の質問を見てきましたが、ほとんどの場合、抽出の順序を処理します (私の場合はそれほど重要ではありません)。