4

Javaとpdfboxを使用してPDFを抽出するツールが作成された後、PythonでPDFを抽出しようとしました。

Java 実装は同じ pdf で成功しましたが、pdfminer と pypdf の両方と pypdf2 がスペースを含む行ごとに pdf を抽出できないため、python で同じことを行うのに苦労しています。特に、pdfminer pdf2txt は、何らかの奇妙な理由で pdf を 3 列に分割してから、行ごとに読み取ります。

私が得た最も近いものは、残念ながらスペースを保持しないスタックオーバーフローの質問の実装を使用することでした. 両方とも数値を持つ変数があるため、それらをテキスト形式で復元することはできません。

これを考えると、Pythonで行ごとに空白を含むpdfを抽出することは可能ですか?

4

2 に答える 2