ruby-on-rails - ROR を使用した PDF ドキュメントの解析

Question

PDF（テキストのみ）をプレーンテキストに解析する方法を探しています。Ruby を使用した PDF の解析は以前に尋ねられたようですが、回答は数年前のもので、Rails アプリには適していません。

これを支援できるgemはありますか？

score 2 · Accepted Answer

これがdocsplit gemのすべてです。使用例:

pdfs = Dir['storage/originals/*.pdf']
Docsplit.extract_text(pdfs, :ocr => false)

この宝石の素晴らしいところは、テキストを取得するために変換できること.docです.odt。

さらに、非常に専門的な会社の支援を受けています: http://www.documentcloud.org/

score 0 · Accepted Answer

これはかなり有名なようです。私はそれを試していませんが、それは関連しているようです。

2 に答える 2