opencv - 画像上の数字と「その他の文字とノイズ」の 2 つのクラスを区別する方法は?

Question

現実世界から汚れたパネル上の文字を見つけるのに役立つ画像認識アルゴリズムを開発しています。実際には、画像は文字、数字、および泥を含む自動車登録プレートです。

アルゴリズムは、文字をアルファベット文字と数字の 2 つのクラスに分類する必要があります。2 つのクラスを区別するために LBP または Haar カスケードをトレーニングすることは可能ですか? 数字の形状が多様であるため、トレーニング結果は安定しますか?

簡単に説明してもらえますか、またはより良い方法をお勧めしますか?

score 0 · Accepted Answer

「アルゴリズムは、文字をアルファベット文字と数字の 2 つのクラスに分類する必要があります。」- 泥と背景を忘れましたが、技術的には幅広いカテゴリ「その他」に追加できます. Haars カスケードは、通常、顔に特徴的な特徴がある中間の空間スケールでウェーブレットを近似するため、顔検出などに使用されます. 問題は異なります.最初に問題の構造を理解し、文献を読んでから、学習アルゴリズムの純粋な力を使用する必要があります. この本は実際に、人々が問題を分析するのではなく、最初に方法について考え始めていることについて少し話していますが、これは必ずしも良いことではありません.考え。

技術的には、最初に画像内のテキストを見つける必要があります。これは、通常、ゼロから作成するのではなく、ライブラリとして使用される現在の最先端の OCR を考えると、それを認識するよりも難しい場合があります。画像内のテキストを見つけるには、最初に適応しきい値処理を行ってバイナリマップを作成し (1-前景は文字と数字、0 は背景)、次に SWT (ストローク幅変換) http:/ /research.microsoft.com/pubs/149305/1509.pdf

opencv - 画像上の数字と「その他の文字とノイズ」の 2 つのクラスを区別する方法は?

1 に答える 1

Related

Reference