1

こんにちは、手書きのOCR分類ニューラルネットワークで使用するのに適した機能について、研究論文を検索しています。私は初心者なので、手書き文字の画像を取り、その周りにバウンディング ボックスを作成し、それを 15x20 のバイナリ画像にサイズ変更しました。これは、300 個のフィーチャの入力レイヤーがあることを意味します。私がグーグルで見つけた論文(そのほとんどはかなり古いものです)から、方法は本当に異なります。私の精度は画像のバイナリ グリッドだけでは悪くありませんが、精度を上げるために使用できる他の機能を誰かが持っているかどうか疑問に思っていました。または、私を正しい方向に向けるだけです。とても感謝しております!

ありがとう、ザック

4

1 に答える 1

1

このトピックに関する実際の論文を読んだことはありませんが、私のアドバイスは、創造的になることです。分類子が数字を識別するのに役立つと思われるものは何でも使用してください。

私の最初の考えは、おそらく修正された「スライディングウィンドウ」アルゴリズム(スライディング/回転線?)を介して、画像内の「線」を識別しようとするか、画像に「最適な線」を識別しようとすることです(斜体や文体の変更に分類子が対応できるようにします)。実際には、ニューラル ネットワークを使用している場合は、手動の助けを借りずにこの種のことを検出する必要があります (それが重要な点です!)。

私は最初にネットワークの構造とトポロジに焦点を当ててパフォーマンスを改善しようと試み、他の方法で満足のいくパフォーマンスが得られない場合にのみ追加機能について心配します。また、既存の機能を改善してみてください。文字が画像の中央にあることを確認してください。イタリック体の文字を傾けて垂直にするアルゴリズムを試してみてください。

私の経験では、これらの種類のことはあまり役に立ちませんが、運が良ければ、ネットを改善するものに遭遇する可能性があります:)

于 2012-10-15T02:49:01.497 に答える