ruby - テキストと画像を含むRuby Parse PDFファイル

Question

テキストと画像の両方のコンテンツを含むpdfファイルがあります。私はそれを解析する必要があります。役に立つルビーの宝石はありますか？私はpdf-reader ruby gemを試しましたが、画像を解析しませんでした:(

別の解決策の 1 つは、pdf を html に抽出してから、html コンテンツを解析することです。テキストと画像の両方で動作するオープンソースの pdf2html コンバーターはありますか?

score 2 · Accepted Answer

pdf-readerは画像を抽出できますが、PDF :: Reader :: Page＃text（）のような優れたヘルパーがないため、かなり手動です。

extract_images.rdの例@[1]を確認してください。

1 に答える 1