3

おやすみ :)

現在、画像を読み込んでピクセルごとの RGB 値を確認できる DevIL ライブラリを使用しています。個人的な学習プロジェクトとして、Photoshop で自分で作成したいくつかの画像用の非常に基本的な OCR システムを作成しようとしています。

画像のすべての歪みをうまく取り除くことができ、テキストと数字が残りました。私は現在、入力から学習する高度なニューラル ネットワークを探していません。比較的簡単に始めたいので、個々の文字を識別し、それらの文字のピクセルを数えることに着手しました。

2 つの問題があります。

  • 個々のキャラクターの識別。
  • 最も重要なのは、以前にカウントしたピクセルをカウントせずに、接続されたピクセル (同じ色) をカウントするアルゴリズムが必要であることです。私には数学のバックグラウンドがないので、これが私にとって最大の問題です。

この問題について何か助けていただければ幸いです。

編集:

現在使用しているのは C++ であるため、この質問に C++ のタグを付けました。ただし、疑似コードまたは別の言語からの簡単に読み取れるコードも問題ありません。

4

3 に答える 3

2

フラッド フィルアルゴリズムは、画像が単純な白黒ビットマップにフィルター処理されている限り、含まれるピクセルをカウントするために機能します。

そうは言っても、各文字をセット内の各文字の標準画像のセットと比較し、類似度を測定し、スコアが最も高い文字を選択することで、文字認識を実行できます。

詳細については、この質問をご覧ください。

于 2009-02-26T04:56:26.597 に答える
1

これが役立つかどうかはわかりませんが、gocrという GPL OCR ライブラリがあります。

于 2009-02-26T04:54:53.183 に答える
1

これがあまりにもトピックから外れている場合は申し訳ありませんが、私見のVigra (他のものではありません!) は DevIL よりもはるかに優れた C++ 用の画像処理ライブラリです。

于 2009-02-26T04:58:17.043 に答える