PDF(テキストのみ)をプレーンテキストに解析する方法を探しています。Ruby を使用した PDF の解析は以前に尋ねられたようですが、回答は数年前のもので、Rails アプリには適していません。
これを支援できるgemはありますか?
PDF(テキストのみ)をプレーンテキストに解析する方法を探しています。Ruby を使用した PDF の解析は以前に尋ねられたようですが、回答は数年前のもので、Rails アプリには適していません。
これを支援できるgemはありますか?
これがdocsplit gemのすべてです。使用例:
pdfs = Dir['storage/originals/*.pdf']
Docsplit.extract_text(pdfs, :ocr => false)
この宝石の素晴らしいところは、テキストを取得するために変換できること.doc
です.odt
。
さらに、非常に専門的な会社の支援を受けています: http://www.documentcloud.org/
これはかなり有名なようです。私はそれを試していませんが、それは関連しているようです。