問題タブ [pdf-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
427 参照

python - PDF を Python でテキストに変換し、画像ファイルに空の結果を返す

私はこのpdfファイルを持っています。画像ベースの低解像度 PDF ファイル。その中のデータを抽出しようとしていますが、試したすべてのオプションが機能していないようです。

オプション 1 - pdfminer を使用する

オプション 2 - tika の使用

オプション 3 - pypdf を使用

すべてのオプションが空の結果を返します。ファイルの品質に関係している可能性があると思います。画像に取り組み、画像の特徴を増やしてデータ抽出を容易にすることができることを私は知っています (画像サイズを大きくしたり、しきい値で作業したりするなど、PIL で多くのことを行うことができます)。PDFファイルでもそれを行う効率的な方法はありますか?

0 投票する
1 に答える
59 参照

python - io を使用して PDF の URL からテキストを抽出すると、PyPDF2 で出力が得られない

PDFのURLからテキストを抽出しようとしています。PDFをダウンロードすると、関数でテキストを簡単に抽出できますslate。ただし、pdf をインポートしioてテキストを抽出しようとすると、返される出力は何もありません。以下にコードを添付します。

他の多くの機能を試しましたが、機能しません。私は何か間違ったことをしていますか?