1

PDF(テキストのみ)をプレーンテキストに解析する方法を探しています。Ruby を使用した PDF の解析は以前に尋ねられたようですが、回答は数年前のもので、Rails アプリには適していません。

これを支援できるgemはありますか?

4

2 に答える 2

2

これがdocsplit gemのすべてです。使用例:

pdfs = Dir['storage/originals/*.pdf']
Docsplit.extract_text(pdfs, :ocr => false)

この宝石の素晴らしいところは、テキストを取得するために変換できること.docです.odt

さらに、非常に専門的な会社の支援を受けています: http://www.documentcloud.org/

于 2013-10-29T12:56:03.737 に答える
0

これはかなり有名なようです。私はそれを試していませんが、それは関連しているようです。

于 2013-10-29T12:55:29.267 に答える