pdftotext - スキャンした pdf からのデータの読み取り

Question

スキャンした PDF をテキストに変換したり、テキストエディターでテキストとしてコピーアンドペーストしたりできません。

このようなスキャンした PDF ファイルをプログラムまたは手動で TEXT 形式に変換する方法はありますか?

ありがとう

score 2 · Accepted Answer

ドキュメントはスキャンされるため、操作する画像しかない可能性があります。光学式文字認識 (または OCR) でうまくいくかもしれません。このメソッドを使用すると、画像からテキストデータを抽出できます。

Tesseractは、私のプロジェクトで多くの成功を収めた人気のあるエンジンです。あなたはそれをチェックアウトすることを検討するかもしれません.

score 0 · Accepted Answer

100,000 行に満たないテキストを手動で変換する場合は、面倒な作業を手伝ってくれる人が見つかれば、いつでもすべてのデータを自分で入力するか、チームメイトと一緒に入力できます。この作業に使用できる優れた OCR ソフトウェアツールがあります。彼らは本当に長い道のりを歩んできました。

これをプログラムで行いたい場合は、以前 ProPublica にいた Dan Nguyen によるこのガイドを参照してください。

http://www.propublica.org/nerds/item/doc-dollars-guides-collecting-the-data

彼は、医師のオフィスからスキャンされたドキュメントの PDF を使用して、彼らがどのようにそれを行ったかを説明します。彼は Ruby on Rails を使用しており、データを取得する方法を示すコードサンプルがあります: http://www.propublica.org/nerds/item/turning-pdfs-to-text-doc-dollars-guide

ProPublica のコードの一部は github で入手できると思いますので、そこでコードをフォークすることをお勧めします。

pdftotext - スキャンした pdf からのデータの読み取り

2 に答える 2

Related

Reference