1
  • Precision Neural Networksの場合にデータをトレーニングするテストケースの数を増やすと、問題が発生する可能性がありますか(たとえば、過剰適合など)。

  • テストケースのトレーニングデータ数を増やすことは常に良いことですか?それは常に回心につながりますか?

  • いいえの場合、これらのケースは何ですか..例の方が良いでしょう..

ありがとう、

4

2 に答える 2

4

「テストケース」と言うときは、データインスタンスについて話していると仮定します。

いくつかのシナリオを見てみましょう。

アンチソトロピー

1000個のインスタンスを持つトレーニングデータセットがあり、それらはすべて互いに大幅に類似しているが、資格データセットのインスタンスはトレーニングデータとは大幅に異なるとします。たとえば、関数を推定しようとする問題がありますy = mx + b

データセットの一部が推定に役立つサンプルを提供し、m他のデータセットが推定に役立つサンプルを提供するとしますb。推定に役立つ1000個のサンプルをニューラルネットワークに提供し、推定にb役立つサンプルが5個しかないm場合、ニューラルネットワークの推定のパフォーマンスは非常に低くなりますm。ニューラルネットワークを過剰適合させ、推定に役立つサンプルを追加してbも役に立ちません。

等方性

ここで、データセット内のデータインスタンスの比例分布(等しいとは言わなかったことに注意してください)があり、それらを比例させたいとします。推定するために必要なデータインスタンスmよりも多くのデータインスタンスが必要になる可能性があるためです。見積もりb。これで、データは比較的均質になり、サンプルを追加すると、関数をより適切に推定するのに役立つ機会が増えます。技術的には、無限の数のデータインスタンスを持つことy = mx + bができ(線は両方向に無限であるため)、おそらく役立つでしょうが、収穫逓減のポイントがあります。

収穫逓減

このy = mx + b例では、無限の数のデータインスタンスを持つことができますが、1,000個のインスタンスで関数を推定できる場合は、データセットに100,000個のデータインスタンスを追加しても役に立たない可能性があります。ある時点で、インスタンスを追加しても適合性が向上しないため、収穫逓減が発生します。

ここで、XORのようなブール関数を推定しようとしていると仮定します。

A    B   A XOR B
1    1      0
1    0      1
0    1      1
0    0      0

この場合、データを追加することはできず、データを追加しても意味がありません...有効なデータインスタンスは4つだけで、これですべてです。この例では、データインスタンスを追加しても意味がありません。

結論

一般に、データインスタンスを追加することは、問題に直接依存します。一部の問題は、より多くのデータインスタンスから恩恵を受ける可能性があり、他の問題が発生する可能性があります。データセットを分析する必要があり、サンプルが実際のデータをより代表するようにするために、データセットに対して何かを行う必要がある場合があります。解決しようとしている問題を研究し、そのドメインを理解し、それが持つデータサンプルを理解し、それに応じて計画する必要があります...機械学習/人工知能には万能の解決策はありません。

于 2010-05-03T02:35:48.383 に答える
0

過剰適合の問題は、多くのニューロンでネットを構築することを意味します。したがって、トレーニングプロセスに気付いたときに、ネットは「良すぎる」ように調整されます。言い換えると、グレードnの多項式を近似するようなものであり、データはmサイズであり、nはmの近くでoよりも大きくなります。関数に非常に多くのグレードがあるので、フィットはより良くなりますが、これはこの曲線が最良であるという意味ではありません。NNも同じように起こり、ニューロンとエラーの関係は笑顔のように減少しています。

より多くのデータがより多くのエラーにつながるという証拠はありませんが、いくつかの作業では、主成分を適用してデータの事前分析を行い、より良い関係をキャプチャします。

于 2010-05-03T19:36:44.880 に答える