4

すべての数字の写真を認識しようとしています。写真上で数字の位置が違うこと以外はほとんどノイズがないように、数字以外はすべて取り除いています。Neuroph の画像認識 GUI を使用していますが、トレーニングについていくつか質問があります。

写真に使用する解像度が高いほど、トレーニングが悪化するようです。どうしてこれなの?トレーニング セットには 100 枚の写真があります。各桁の 10。それは少なすぎるのではないでしょうか?私が何をしても、すべてのトレーニングがネットワークエラーの合計で通常2〜3の数値に収束するのはなぜですか。

お役に立てれば幸いです。

編集:

これはトレーニングの1つの写真です 代替テキスト

それはあまり学ばない

4

2 に答える 2

3

情報の増加は指数関数的です!

より高い解像度の画像を提供すると、評価が必要な追加情報を提供することになります。

解像度が 10x10px の場合、画像あたり 100 ピクセルになり、1 桁あたり 10 個の画像があるため、1 桁あたり 1000 ピクセルになります。

解像度を 20x20px に倍増すると、画像あたり 400 ピクセルまたは桁あたり 4000 ピクセルになります。

つまり、解像度を上げると、各桁ごとに評価する必要があるピクセル数が指数関数的に増加します。

(不要な) ピクセルを追加すると、エラーの可能性が高くなります。

通常、機械学習では、可能な限りエラーの余地を少なくするために、写真は (サイズと色の両方で) 最小限に抑えられます。より多くのピクセルがある場合、アルゴリズムはそれらのピクセルについて、画像の実際のフォームとはまったく関係のない何かを学習する可能性があります。

于 2010-09-02T22:29:18.507 に答える
0

1 つには、解像度を上げることはここでは役に立たないという Lirik のコメントを支持する必要があります。

それとは別に、各桁の 10 個のサンプルは、ニューラル ネットワークがトレーニングするのに十分なデータではない可能性があります。人間が理解できない奇妙な言語で数字を認識できるように人間をトレーニングしている場合、数字の 10 個のサンプルは十分なトレーニング データではない可能性があります。トレーニング データのサイズを各桁で約 250 ~ 300 に増やして、より良い結果が得られるかどうかを確認します。特定のネットについて何も知らずに、正確にどれだけ必要かを判断するのは困難です。

私の推測では、より多くのトレーニング データとより低い解像度の画像を使用すると、より良い結果が得られると思います。

于 2010-09-02T22:46:06.937 に答える