ニューラルネットワークで文字と数字の簡単な認識をしています。これまで、文字の画像のすべてのピクセルをネットワークへの入力として使用していました。言うまでもなく、このアプローチは非常に大規模なネットワークを生成します。そこで、画像から特徴を抽出し、それらを NN への入力として使用したいと思います。私の最初の質問は、文字のどのような特性が文字を認識するのに適しているかということです. 2 番目の問題は、これらの機能をニューラル ネットワークへの入力としてどのように表現するかです。たとえば、文字のすべての角を検出し、それらを (x,y) 点のベクトルとして取得したとします。このベクトルを NN に適したものに変換する方法 (文字によってベクトルのサイズが異なる場合があるため)。
6311 次
3 に答える
5
この記事、人工知能の紹介。Kluever (2008) による人工ニューラル ネットワークを使用した OCR では、ニューラル ネットワークを使用した OCR の 4 つの特徴抽出手法について概説しています。彼は次の方法について説明します。
- ランレングス エンコーディング (RLE): これにはバイナリ イメージが必要です (つまり、白または黒のみ)。バイナリ文字列は、より小さな表現にエンコードできます。
- エッジ検出: エッジを見つけます。これをかなり粗くすることができるので、正確な (x,y) 座標を返す代わりに、縮小された位置 (つまり、20%、40%、60& および 80%) でそのようなエッジが発生した場合にのみカウントすることで行列を縮小できます。画像の)。
- Count 'True Pixels': これにより
width * height
、画像行列の次元が から に減少しwidth + height
ます。width
ベクトルとheight
ベクトルを別々の入力として使用します。 - 基本的な行列入力: これは既に試しました。マトリックス全体を入力すると良い結果が得られますが、お気づきのように、次元が高くなり、トレーニング時間が長くなる可能性があります。画像のサイズを小さくしてみてください (例: 200x200 から 50x50 へ)。
于 2012-07-11T09:02:53.537 に答える
4
多くの人がさまざまな機能を OCR に取り入れています。もちろん、最も簡単なのは、ピクセル値を直接渡すことです。
UCI データ セットから抽出された OpenCV サンプルには、文字認識データがあります。約16のさまざまな機能を採用しています。この SOF を確認してください : UCI の "Letter Image Recognition Dataset" のような画像からデータを作成する方法
また、回答の 1 つでこれを説明している論文も見ることができます。グーグルで入手できます。
また、この PPTに興味があるかもしれません。現在使用されているさまざまな特徴抽出手法について簡潔に説明しています。
于 2012-07-11T15:05:05.707 に答える
1
非常に高次元の入力ベクトルがある場合は、主成分分析 (PCA) を適用して冗長な特徴を削除し、特徴ベクトルの次元を減らすことをお勧めします。
于 2012-09-03T15:15:16.977 に答える