ライブラリ、できればubuntuにパッケージされているフリーソフトウェアライブラリを使用して、PDFからフォームデータを抽出したいと思います。
たとえば、HTML フォームがあるとしますが、ユーザーが HTML フォームの代わりに記入済みの PDF フォームを送信できるようにしたいと考えています。
したがって、私が探しているのは、入力として PDF を受け取り、HTML と同じように、入力されたフィールドを名前で抽出できるライブラリ (または単純な CLI ユーティリティ) です。
pdftotext を試してみましたが、実際には情報が保持されず、PDF がテキストとしてレンダリングされるだけです。PDFminer を試してみましたが、(少なくともテスト PDF では) まったく機能していないように見えました (空の出力しか得られませんでした)。
ライブラリなら言語にこだわりはありませんが、pythonがあればなお良しです。