python - PDF からのフォームデータの抽出 (ライブラリまたはユーティリティ)

Question

ライブラリ、できればubuntuにパッケージされているフリーソフトウェアライブラリを使用して、PDFからフォームデータを抽出したいと思います。

たとえば、HTML フォームがあるとしますが、ユーザーが HTML フォームの代わりに記入済みの PDF フォームを送信できるようにしたいと考えています。

したがって、私が探しているのは、入力として PDF を受け取り、HTML と同じように、入力されたフィールドを名前で抽出できるライブラリ (または単純な CLI ユーティリティ) です。

pdftotext を試してみましたが、実際には情報が保持されず、PDF がテキストとしてレンダリングされるだけです。PDFminer を試してみましたが、(少なくともテスト PDF では) まったく機能していないように見えました (空の出力しか得られませんでした)。

ライブラリなら言語にこだわりはありませんが、pythonがあればなお良しです。

score 2 · Accepted Answer

私はpdftkを使用していくつかのデータを抽出し、pdfを操作していますが、入力されたフォームを必要な方法で処理できるかどうかはわかりません。

python - PDF からのフォーム データの抽出 (ライブラリまたはユーティリティ)