契約作業のために、ドイツ連邦議会からの古い、スキャンされたグラフィックのみの本会議の議定書 PDF を大量にデジタル化する必要があります。
問題は、これらのファイルのほとんどが 2 列形式になっていることです。
サンプルプロトコル http://sert.homedns.org/img/btp12001.png
次の質問に対するあなたの回答をぜひお読みください。
- OCR に入力する前に、2 つの列を分割するにはどうすればよいですか?
- どの商用オープンソース OCR ソフトウェアまたはフレームワークをお勧めしますか?またその理由は?
どのツール、プログラミング言語、フレームワークなどでも問題ないことに注意してください。難解な製品、ライブラリがジャブに適していると思われる場合は、躊躇しないでお勧めします ^__^ !!
更新:これらの文書は議会 o_O:サンプル(上の画像と同じ) によって既にスキャンされており、大量にあり、できるだけ早く契約書を提出したいので、同じ文書の印刷コピーを取りに行くことはできません。自分でスキャンします。それらの数が多すぎます。
宜しくお願いします、
Cetin Sert