私は PDF 形式のドキュメントをいくつか持っていますが、それらはほぼ完全にトランスクリプトです。これらのトランスクリプトを検索 (および自動化) し、基本的に会話/ヘッダーなどをスクレイピングする方法を探しています。生データへ (「X は Y と何回言ったか」など)
PDF をより使いやすい形式 (HTML または疑似 HTML など) に変換して、何が起こっているのかを正確に確認できる方法はありますか?
私は現在、含まれているすべてのテキストを txt ファイルに変換するスクレーパーを使用しています。これは便利ですが、書式設定 (太字のステートメントなど) を除外することで、作業がずっと楽になります。
Python を使用してこのような方法で PDF を調べる方法は、同様に高く評価されます。