スキャンした PDF をテキストに変換したり、テキスト エディターでテキストとしてコピー アンド ペーストしたりできません。
このようなスキャンした PDF ファイルをプログラムまたは手動で TEXT 形式に変換する方法はありますか?
ありがとう
スキャンした PDF をテキストに変換したり、テキスト エディターでテキストとしてコピー アンド ペーストしたりできません。
このようなスキャンした PDF ファイルをプログラムまたは手動で TEXT 形式に変換する方法はありますか?
ありがとう
ドキュメントはスキャンされるため、操作する画像しかない可能性があります。光学式文字認識 (または OCR) でうまくいくかもしれません。このメソッドを使用すると、画像からテキスト データを抽出できます。
Tesseractは、私のプロジェクトで多くの成功を収めた人気のあるエンジンです。あなたはそれをチェックアウトすることを検討するかもしれません.
100,000 行に満たないテキストを手動で変換する場合は、面倒な作業を手伝ってくれる人が見つかれば、いつでもすべてのデータを自分で入力するか、チーム メイトと一緒に入力できます。この作業に使用できる優れた OCR ソフトウェア ツールがあります。彼らは本当に長い道のりを歩んできました。
これをプログラムで行いたい場合は、以前 ProPublica にいた Dan Nguyen によるこのガイドを参照してください。
http://www.propublica.org/nerds/item/doc-dollars-guides-collecting-the-data
彼は、医師のオフィスからスキャンされたドキュメントの PDF を使用して、彼らがどのようにそれを行ったかを説明します。彼は Ruby on Rails を使用しており、データを取得する方法を示すコード サンプルがあります: http://www.propublica.org/nerds/item/turning-pdfs-to-text-doc-dollars-guide
ProPublica のコードの一部は github で入手できると思いますので、そこでコードをフォークすることをお勧めします。