問題タブ [layout-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pdf - 議会討論の PDF の光学式文字認識
契約作業のために、ドイツ連邦議会からの古い、スキャンされたグラフィックのみの本会議の議定書 PDF を大量にデジタル化する必要があります。
問題は、これらのファイルのほとんどが 2 列形式になっていることです。
サンプルプロトコル http://sert.homedns.org/img/btp12001.png
次の質問に対するあなたの回答をぜひお読みください。
- OCR に入力する前に、2 つの列を分割するにはどうすればよいですか?
- どの商用オープンソース OCR ソフトウェアまたはフレームワークをお勧めしますか?またその理由は?
どのツール、プログラミング言語、フレームワークなどでも問題ないことに注意してください。難解な製品、ライブラリがジャブに適していると思われる場合は、躊躇しないでお勧めします ^__^ !!
更新:これらの文書は議会 o_O:サンプル(上の画像と同じ) によって既にスキャンされており、大量にあり、できるだけ早く契約書を提出したいので、同じ文書の印刷コピーを取りに行くことはできません。自分でスキャンします。それらの数が多すぎます。
宜しくお願いします、
Cetin Sert
ocr - OCRはもはや問題ではありませんか?
ウィキペディアによると、「ラテン文字のタイプライターで書かれたテキストの正確な認識は、印刷された文書のスキャンなど、鮮明な画像が利用できるアプリケーションでは、主に解決された問題と見なされています。」ただし、引用はありません。
私の質問は:これは本当ですか?現在の最先端技術は非常に優れているので、英語のテキストを適切にスキャンするために、大きな改善を行う必要はありませんか?
または、この質問の主観的でない形式は次のとおりです。高品質のスキャンのために英語のテキストを認識する際に、最新のOCRシステムはどの程度正確ですか。
html - 特定の地域のhtml要素を抽出しますか?
長方形とURLで定義された領域が与えられた場合、指定されたURLでページ上の指定された長方形内にある要素を判別する方法はありますか?
編集:画面解像度、フォントサイズなどはすべて適切なデフォルトに設定できます。