1

こんにちは私は機械学習を勉強しています。Pythonとopencvを使用して簡単な手書き認識ソフトウェアを作成したいと思います。

簡単にするために、同じサイズの大文字の単語のみを認識します。文字を認識する良い方法は、ガウス混合モデルのパラメーターを学習するために期待値最大化アルゴリズムを使用し、トレーニングセットを使用して、新しい文字のガウス混合をトレーニング済みのものと比較することだと思います。しかし、混合物に含まれるガウス関数の数を選択する方法がわかりません。

2番目の問題は、ページに含まれる単語の数と、単語に含まれる文字の数をどのように理解するかです。em-algorithmまたは同様のもの(たとえばk-means)が解決策になるとは思いませんが、確かにいくつかのセグメンテーションの問題があります

いくつかのアドバイス?

4

1 に答える 1

1

まず、文字を揃える必要があります。あなたがその直立を仮定するならば、それから大丈夫です。その後、2つのクラスターでkmeansセグメンテーションを使用して、背景からの書き込みをクラスター化できます(背景がプレーンであると想定)。それが完了すると、基本的に、前景として1、背景として0のバイナリイメージが得られます。その後、連結成分分析を実行して、各文字をセグメント化できます。

GMMの代わりに、ニューラルネットワークを使用して文字を分類できると思います。同様に、文字画像を正規化し、26個のアルファベットに対して26個の出力を持つニューラルネットワークにピクセルを送信できます。

これは、問題に取り組む1つの方法です。ペーパーを実装または参照するためのより多くの情報または資料が必要な場合は、それを求めることができます。

ありがとう、クリシュナ

于 2011-04-15T19:46:13.707 に答える