0

私は PDF 形式のドキュメントをいくつか持っていますが、それらはほぼ完全にトランスクリプトです。これらのトランスクリプトを検索 (および自動化) し、基本的に会話/ヘッダーなどをスクレイピングする方法を探しています。生データへ (「X は Y と何回言ったか」など)

PDF をより使いやすい形式 (HTML または疑似 HTML など) に変換して、何が起こっているのかを正確に確認できる方法はありますか?

私は現在、含まれているすべてのテキストを txt ファイルに変換するスクレーパーを使用しています。これは便利ですが、書式設定 (太字のステートメントなど) を除外することで、作業がずっと楽になります。

Python を使用してこのような方法で PDF を調べる方法は、同様に高く評価されます。

4

1 に答える 1

1

オープン ソース ライブラリ PDF2JSON をご覧ください。すべてのテキストデータをJSONまたはXMLに変換して、簡単に検査できるようにします

http://code.google.com/p/pdf2json

于 2014-02-08T03:46:25.383 に答える