私はtesseract3.0.0を使用していますが、次の問題にぶつかりました。
tesseractが認識するには小さすぎるものがある場合、それは他のフラグメントとマージされているように見えます。その結果、関連するものは何も返されません。
下の画像は3つのケースを示しています。破線の長方形のみがtesseractに渡されます。長方形の上に結果があります(V over Tは改行を意味します)。
最後のケースは問題の1つです。このような状況で正八胞体を改善する方法はありますか?
私の知る限り、Tesseractにはまだ適切な画像セグメンテーション(または商用OCRアプリケーションで呼ばれるドキュメント分析)がありません。通常、OCRが実行される前に、画像はテキスト、画像、バーコードを含む別々の領域に分割されます、行など。次に、テキスト領域にのみOCRを適用し、今説明した問題に直面しません。
以前のバージョンのTesseractにはその機能がまったくなく、Tesseractは、大きな画像から切り取った小さなテキストスニペットで使用する場合、行認識機能、またはいわゆるフィールドレベル認識機能としてのみ使用されるはずでした。
私は3.0で導入されたものを完全にはフォローしていませんでした。おそらくすでに部分的に存在していますが、ご存知のとおり、明らかに期待どおりに機能しません。
別のオープンソースプロジェクト(OCRopus)があります。これは、私が説明したとおりにこの問題に取り組みました。最初にDocument Analisys(別名セグメンテーション)、次にOCRです。彼らの以前のバージョンは、analisysステップが終了した後、実際にはOCRにTesseractを使用していました。しかし、後で彼らは独自のOCR(まだあまり良くありません)を導入し、Tesseractプラグインのサポートを優先順位リストに移動しました。
問題に対処するために実際にできることは次のとおりです。
免責事項:私はABBYYで働いています