使用するモデルのタイプは、さまざまな要因によって異なります。
- データ量: データが非常に少ない場合は、線形回帰などの単純な予測モデルを選択することをお勧めします。強力すぎる予測モデルを使用すると、モデルが過剰に適合するリスクが発生し、新しいデータが一般化されてしまいます。リトルデータとは何ですか?これは、入力次元の数と、データの基になる分布によって異なります。
- モデルの経験。ニューラル ネットワークは、経験がほとんどない場合、扱いが非常に難しい場合があります。ネットワーク層の構造、反復回数、学習率、モメンタム項など、最適化すべきパラメータはかなりあります。この「メタ最適化」に関しては、線形予測の方が処理がはるかに簡単です。
それでもいずれかの方法を選択できない場合、実用的なアプローチは、いくつかの異なる予測方法を評価することです。すでに目標値があるデータ (2008 年のデータ) の一部を取得し、それをトレーニング データとテスト データに分割し (たとえば、テスト データとして 10% を取得)、クロス検証を使用してトレーニングとテストを行い、エラー率を次のように計算します。予測値をすでに持っている目標値と比較します。
C. Bishop による「パターン認識と機械学習」という素晴らしい本も Web 上にあります。予測モデルに関する優れた紹介セクションがあります。