pdf - 議会討論の PDF の光学式文字認識

Question

契約作業のために、ドイツ連邦議会からの古い、スキャンされたグラフィックのみの本会議の議定書 PDF を大量にデジタル化する必要があります。

問題は、これらのファイルのほとんどが 2 列形式になっていることです。

サンプルプロトコル http://sert.homedns.org/img/btp12001.png

次の質問に対するあなたの回答をぜひお読みください。

OCR に入力する前に、2 つの列を分割するにはどうすればよいですか?
どの商用オープンソース OCR ソフトウェアまたはフレームワークをお勧めしますか?またその理由は?

どのツール、プログラミング言語、フレームワークなどでも問題ないことに注意してください。難解な製品、ライブラリがジャブに適していると思われる場合は、躊躇しないでお勧めします ^__^ !!

更新:これらの文書は議会 o_O:サンプル(上の画像と同じ) によって既にスキャンされており、大量にあり、できるだけ早く契約書を提出したいので、同じ文書の印刷コピーを取りに行くことはできません。自分でスキャンします。それらの数が多すぎます。

宜しくお願いします、
Cetin Sert

score 0 · Accepted Answer

0

スキャンする前に、ページを中央で切り取ります。

于 2009-07-09T15:12:31.567 に答える

score 0 · Accepted Answer

使用しているOCRソフトウェアによって異なります。数年前、私はOCR APIを使っていくつかの作業を行いました。名前をよく覚えていませんが、代替手段はたくさんあると思います。とにかく、このAPIを使用すると、ページ上の領域をOCRに定義できます。列がどこにあるかを常に大まかに知っている場合は、SDKを使用してページの一部をマップできます。

score 0 · Accepted Answer

私はそのようなことのためにOmnipage17を使用します。バッチモードもあり、ドキュメントを取得したフォルダに入れて、結果を別のフォルダに入れることができます。レイアウトを自動認識するか、列を含めるか、デフォルトのレイアウトを列に設定できます。出力がどのように表示されるかについて、多くのオプションを設定できます。ただし、問題がなければ、デモを試してください。現在、一部のドキュメントで合字に問題があります。したがって、「fliegen」のような単語は「fl iegen」として出てくるので、それらを綴る必要があります。

score 0 · Accepted Answer

http://www.wisetrend.com/wisetrend_ocr_cloud.shtml (オンラインの OCR 用 REST API)をご覧ください。これは、強力な ABBYY OCR エンジンに基づいています。無料のアカウントを取得して、いくつかの画像で試してみて、2 列形式を処理できるかどうかを確認してください (処理できるはずです)。また、操作できる設定がたくさんあります (API ドキュメントを参照) - 2 つの列で動作する前に、それらのいくつかを微調整する必要がある場合があります。最後に、最後の手段として、2 列の分割が常に同じ場所にある場合は、最初に入力画像を 2 つの画像に分割するプログラムを作成できます (標準的な画像を使用してこれを記述するのはそれほど難しくないはずです)。処理ライブラリ)、結果の画像を OCR プロセスにフィードします。

pdf - 議会討論の PDF の光学式文字認識

4 に答える 4

Related

Reference