問題タブ [pdf-extraction]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

113 問題

0 投票する

2 に答える

427 参照

python - PDF を Python でテキストに変換し、画像ファイルに空の結果を返す

私はこのpdfファイルを持っています。画像ベースの低解像度 PDF ファイル。その中のデータを抽出しようとしていますが、試したすべてのオプションが機能していないようです。

オプション 1 - pdfminer を使用する

オプション 2 - tika の使用

オプション 3 - pypdf を使用

すべてのオプションが空の結果を返します。ファイルの品質に関係している可能性があると思います。画像に取り組み、画像の特徴を増やしてデータ抽出を容易にすることができることを私は知っています (画像サイズを大きくしたり、しきい値で作業したりするなど、PIL で多くのことを行うことができます)。PDFファイルでもそれを行う効率的な方法はありますか?

2021-02-19T19:25:45.653

0 投票する

1 に答える

59 参照

python - io を使用して PDF の URL からテキストを抽出すると、PyPDF2 で出力が得られない

PDFのURLからテキストを抽出しようとしています。PDFをダウンロードすると、関数でテキストを簡単に抽出できますslate。ただし、pdf をインポートしioてテキストを抽出しようとすると、返される出力は何もありません。以下にコードを添付します。

他の多くの機能を試しましたが、機能しません。私は何か間違ったことをしていますか？

python web-scraping io pdftotext pdf-extraction

2021-02-27T19:46:02.550

1 2 3 4 5 6 7 8 9 10

問題タブ [pdf-extraction]

python - PDF を Python でテキストに変換し、画像ファイルに空の結果を返す

python - io を使用して PDF の URL からテキストを抽出すると、PyPDF2 で出力が得られない

Reference