6

連絡先情報 (名前、住所、電話番号、電子メールなど)が手書きで記載された、スキャンされた多数の返信ハガキを処理したいと考えています。

これを行うための実行可能なオープンソース ライブラリまたはソフトウェア (理想的には Java または R) があるかどうかに興味があります。多くの情報を調べてみると、2009 年またはそれ以前のものであり、あまり心強いものではありません。

言語は英語です。

助言がありますか?

編集: OCRopus のページを見てきましたが、最新バージョンは 2009 年 5 月のものです。これに関する経験がある人はいますか、それともより新しいバージョンがありますか?

4

3 に答える 3

3

オープンソースのOCRシステムであるhttp://code.google.com/p/ocropus/をご覧になることをお勧めします。

しかし、それはC++とPythonで書かれているようです。

*更新:*

研究プロジェクトの1つは手書きのアナライザーなので、役立つと思います。

OCRopusエンジンは、2つの研究プロジェクトに基づいています。90年代半ばに開発され、米国国勢調査局によって展開された高性能手書き認識機能と、新しい高性能レイアウト分析方法です。

また、 http://code.google.com/p/ocropus/source/browse/を見ると、ソースファイルは2011年10月から更新されているため(3つのうちの1つは2012年3月のもの)、現在まだ開発中です。

于 2012-04-20T16:01:09.577 に答える
3

すでにしばらくOCRスペースにいるにもかかわらず、オープンソースの手書き認識ライブラリが機能していることを知りません。通常、手書きはOCRよりも難しく、まともな商用ソリューションすらありません。存在するものはすべて独自の問題があり、辞書が限られている場合、テキストが適切に書かれている場合など、非常に狭いアプリケーションでのみ機能します。それでも興味がある場合は、フランスの会社I2IAの技術を確認することをお勧めします。

于 2012-04-20T17:05:53.393 に答える
2

まず、私の知る限り、ネイティブのオープンソース Java OCR SDK はありません。ネイティブ インターフェイス、tessjeract ( http://code.google.com/p/tesjeract/ ) または Tess4J ( http://tess4j.sf.net/ )の呼び出しをラップする Java API があります。

次に、手書きまたは手書きのテキストを検索するかどうかを指定する必要があります。手書きテキストの認識が必要な場合-他の回答に記載されている理由により、タスクを解決できるとは思いません。

ただし、手書きのテキスト (調査、フォームなどで使用されるかなり明確な文字) に ICR (インテリジェントな文字認識の略) が必要な場合は、解決策がある可能性があります。tesseract (オープンソース エンジンの中で最高と見なされているにもかかわらず) は、ここでは役に立たないと思いますが、より正確な SDK を探すことができます。

この質問が役立つかもしれません:手書きのスキャンしたドキュメントを .txt ファイルに変換しますか?

于 2012-04-23T13:22:26.957 に答える