12

pdfフォーム フィールドを含むファイルがあり、データを自動的にファイルにエクスポートする必要がありxmlます。テスト用に作成したサンプル フォームの画面を次に示します。

ここに画像の説明を入力

注: Acrobat Professional をクリックして手動Tools > Form > Export Form Dataでエクスポートし、最終的にファイル出力の xml 拡張子を選択すると、うまく機能します。これは、手動でエクスポートしたときに得られる結果です。

<?xml version="1.0" encoding="UTF-8"?>
<fields>
    <first_name>John</first_name>
    <last_name>Doe</last_name>
</fields>

ただし、PythonスクリプトJava実装、またはコマンドラインツールなどを使用して自動化する必要があります。フォームフィールドデータをエクスポートするために使用できるライブラリまたはツールのアイデアはありますxmlか? ツールまたはライブラリは、ワークフローに統合できるオープン ソースである必要があります。

私はすでに python ライブラリを試しました。これは、pdf ファイルのpdfminer静的部分 ( Static form headerFirst name:および など)をエクスポートするのに役立ちました。Last name:first_namelast_name

編集:ここから sample.pdf ファイルを自由にダウンロードしてください。

4

5 に答える 5

1

私はpdfminerを使用して多くの成功を収めました:

pdf2txt.py -o out.xml -t xml sample.pdf

次に、xpath を使用して解析し、文字列を結合して、コードから使用するには、ここでコードを追跡します

それ以外には、タブラと呼ばれるブロックに新しい子供がいます。ルビーで書かれており、まだ使用する機会がありませんでしたが、素晴らしいと思われます

有料サービスを使いたくないというあなたの気持ちは理解できますが、この記事の執筆時点で月額 2 ドルの変換サービスを Adob​​e が提供していることは言及する価値があります

于 2014-01-22T20:08:03.987 に答える
1

Java には PDF を操作するためのライブラリがいくつかありますが、一般に PDF からフォーマットされた情報を取得するのは困難です。私はそれを実装したことはありませんが、Qoppa は見栄えがよく、高度に見えますが、無料ではありません。フォーム フィールドから値を抽出するのに役立つjPDFFieldsが含まれています。また、同様のスレッドがあり、コマンド ライン ツールに関する情報がいくつかあります。

お役に立てば幸いです。

于 2014-01-22T19:31:39.087 に答える