5

Back Propagation Neural Networkを使用して特定の問題をモデル化するために、Leave-one-outクロス検証を実行しようとしています。トレーニングデータには8つの機能があり、20のインスタンスがあります。NNに予測モデルを構築する機能を学習させようとしています。さて、問題は、予測のエラー率が非常に高いことです。私の推測では、検討中の機能の数と比較すると、トレーニングのインスタンスの数は少ないと思います。この結論は正しいですか。インスタンスに対する最適な機能の比率はありますか?

4

1 に答える 1

9

(このトピックは、MLの文献では、データセットの許容可能なサイズまたは形状として表現されることがよくあります。データセットは、mが行(データポイント)の数であり、nが列(機能);明らかなm >> nが推奨されます。)

あるイベントでは、観察する機能の許容範囲に関する一般的な規則を知りません。これにはおそらくいくつかの理由があります。

  • このような比率は、データの品質(信号対雑音比)に大きく依存します。と

  • 機能の数は、モデルの複雑さの1つの要素にすぎません(たとえば、機能間の相互作用)。モデルの複雑さは、データインスタンス(データポイント)の数を決定する最も強力な要素です。


したがって、この問題には2つのアプローチがあります。これらは反対であるため、両方を同じモデルに適用できます。

  • 機能の数を減らします。また

  • 統計的手法を使用して、所有しているデータを活用します

上記の2つのパスのそれぞれに1つずつ、いくつかの提案があります。

  1. 「重要でない」機能、つまり、応答変数の変動に寄与しない機能を排除します。主成分分析(PCA)は、これを行うための高速で信頼性の高い方法ですが、一般的に「次元削減」に含まれる他の多くの手法があります。

  2. 相互検証の代わりにブートストラップ法を使用します。方法論の違いはわずかに見えますが、予測誤差の削減における(多くの場合実質的な)改善は、多層パーセプトロン(ニューラルネットワーク)について十分に文書化されています(たとえば、Efron、B.およびTibshirani、RJ、ブートストラップ法:クロスの改善検証、 J。of the American Statistics Association、92、548-560。、1997)。トレーニングとテストデータを分割するためのブートストラップ法に精通していない場合、一般的な手法は、データセット全体のサブセットを取得する代わりにサブサンプルを取得することを除いて、交差検定に似ています。Elementsのセクション7.11は、ブートストラップメソッドの優れた入門書です。

私が見つけたこの一般的なトピックに関する最良の単一の情報源は、第7章モデルの評価と、Hastie、Tibshirani、およびFriedmanによる統計学習の優れた論文要素からの選択です。この本は、本のホームページから無料でダウンロードできます。

于 2011-11-11T10:04:26.680 に答える