問題タブ [pdf-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - PDF を Python でテキストに変換し、画像ファイルに空の結果を返す
私はこのpdfファイルを持っています。画像ベースの低解像度 PDF ファイル。その中のデータを抽出しようとしていますが、試したすべてのオプションが機能していないようです。
オプション 1 - pdfminer を使用する
オプション 2 - tika の使用
オプション 3 - pypdf を使用
すべてのオプションが空の結果を返します。ファイルの品質に関係している可能性があると思います。画像に取り組み、画像の特徴を増やしてデータ抽出を容易にすることができることを私は知っています (画像サイズを大きくしたり、しきい値で作業したりするなど、PIL で多くのことを行うことができます)。PDFファイルでもそれを行う効率的な方法はありますか?
python - io を使用して PDF の URL からテキストを抽出すると、PyPDF2 で出力が得られない
PDFのURLからテキストを抽出しようとしています。PDFをダウンロードすると、関数でテキストを簡単に抽出できますslate
。ただし、pdf をインポートしio
てテキストを抽出しようとすると、返される出力は何もありません。以下にコードを添付します。
他の多くの機能を試しましたが、機能しません。私は何か間違ったことをしていますか?