numbers - アラビア数字認識

Question

画像からアラビア数字 (アラビア語 - インド語) を検出しようとしています。

Tesseract OCRを試してみましたが、うまくいきませんでした（アラビア語の単語は認識しますが、数字は認識しません）。これは、そこからページ番号を抽出したい画像です（ページの上部）

ここに画像の説明を入力

私は imagemagick を試して、その画像を、すべての本の番号の可能性を含む、既に作成された小さい画像と比較しましたが、うまくいきませんでした。時間がかかると思います.

実用的で複雑でない解決策は何でしょうか? PS: 画像は Android 携帯からのもので、Windows または Linux サーバーで解析されます。

score 0 · Accepted Answer

実際、Tesseract は問題に対する有効な解決策ではなく、商用のアラビア語 OCR でもありません。サンプルでトレーニングし、特別な処理ルールを指定できるカスタム OCR ソリューションが必要です。

Tesseract は引き続き使用できますが、そのソースコードとトレーニングツールの形式で、自分でカスタムソリューションを構築できます。Tesseract をアラビア語用にカスタマイズするには、このリンクが役立つ場合があります http://arabicocr.wordpress.com

1 に答える 1