3

テキスト画像の両方のコンテンツを含むpdfファイルがあります。私はそれを解析する必要があります。役に立つルビーの宝石はありますか?私はpdf-reader ruby​​ gemを試しましたが、画像を解析しませんでした:(

別の解決策の 1 つは、pdf を html に抽出してから、html コンテンツを解析することです。テキストと画像の両方で動作するオープンソースの pdf2html コンバーターはありますか?

4

1 に答える 1

2

pdf-readerは画像を抽出できますが、PDF :: Reader :: Page#text()のような優れたヘルパーがないため、かなり手動です。

extract_images.rdの例@[1]を確認してください。

[1] https://github.com/yob/pdf-reader/blob/master/examples/extract_images.rb

于 2012-04-16T08:36:27.227 に答える