2

ライブラリ、できればubuntuにパッケージされているフリーソフトウェアライブラリを使用して、PDFからフォームデータを抽出したいと思います。

たとえば、HTML フォームがあるとしますが、ユーザーが HTML フォームの代わりに記入済みの PDF フォームを送信できるようにしたいと考えています。

したがって、私が探しているのは、入力として PDF を受け取り、HTML と同じように、入力されたフィールドを名前で抽出できるライブラリ (または単純な CLI ユーティリティ) です。

pdftotext を試してみましたが、実際には情報が保持されず、PDF がテキストとしてレンダリングされるだけです。PDFminer を試してみましたが、(少なくともテスト PDF では) まったく機能していないように見えました (空の出力しか得られませんでした)。

ライブラリなら言語にこだわりはありませんが、pythonがあればなお良しです。

4

1 に答える 1

2

私はpdftkを使用していくつかのデータを抽出し、pdfを操作していますが、入力されたフォームを必要な方法で処理できるかどうかはわかりません。

于 2012-04-12T08:21:16.263 に答える