Slate Library と PyPDF2 を使用して、Python で PDF からテキストを抽出しようとしています。残念ながら、複数の単語が結合/連結された PDF が出力されることがあります。これは断続的に発生するようです。たとえば、一部の PDF では単語間のスペースが正しく抽出されますが、そうでないものもあります。
単語が正しく抽出されていない PDF の一例が含まれており、ダウンロードできます (SO ではアップロードできません)。からの出力
slate.PDF(open(name, 'rb') ).text()
である (または少なくともセグメントである):
時間の経過とともに大量のタキソンに関するデータが利用可能である場合、これらのデータを STPS 分析に組み込んで、目撃クラスターを検出するモデルの感度と信頼性を高めることができます。
もちろん、最初のカンマ区切りのトークンはnot on adhoc procedures
なぜこれが起こっているのか、またはPDFテキスト抽出に使用するライブラリについてより良い考えを持っている人はいますか?
助けてくれてありがとう!