3

画像からアラビア数字 (アラビア語 - インド語) を検出しようとしています。

Tesseract OCRを試してみましたが、うまくいきませんでした(アラビア語の単語は認識しますが、数字は認識しません)。これは、そこからページ番号を抽出したい画像です(ページの上部)

ここに画像の説明を入力

私は imagemagick を試して、その画像を、すべての本の番号の可能性を含む、既に作成された小さい画像と比較しましたが、うまくいきませんでした。時間がかかると思います.

実用的で複雑でない解決策は何でしょうか? PS: 画像は Android 携帯からのもので、Windows または Linux サーバーで解析されます。

4

1 に答える 1

0

実際、Tesseract は問題に対する有効な解決策ではなく、商用のアラビア語 OCR でもありません。サンプルでトレーニングし、特別な処理ルールを指定できるカスタム OCR ソリューションが必要です。

Tesseract は引き続き使用できますが、そのソース コードとトレーニング ツールの形式で、自分でカスタム ソリューションを構築できます。Tesseract をアラビア語用にカスタマイズするには、このリンクが役立つ場合があります http://arabicocr.wordpress.com

于 2015-06-29T12:47:20.933 に答える