テキストと画像の両方のコンテンツを含むpdfファイルがあります。私はそれを解析する必要があります。役に立つルビーの宝石はありますか?私はpdf-reader ruby gemを試しましたが、画像を解析しませんでした:(
別の解決策の 1 つは、pdf を html に抽出してから、html コンテンツを解析することです。テキストと画像の両方で動作するオープンソースの pdf2html コンバーターはありますか?
テキストと画像の両方のコンテンツを含むpdfファイルがあります。私はそれを解析する必要があります。役に立つルビーの宝石はありますか?私はpdf-reader ruby gemを試しましたが、画像を解析しませんでした:(
別の解決策の 1 つは、pdf を html に抽出してから、html コンテンツを解析することです。テキストと画像の両方で動作するオープンソースの pdf2html コンバーターはありますか?
pdf-readerは画像を抽出できますが、PDF :: Reader :: Page#text()のような優れたヘルパーがないため、かなり手動です。
extract_images.rdの例@[1]を確認してください。
[1] https://github.com/yob/pdf-reader/blob/master/examples/extract_images.rb