0

過去5年間のデータがあり、それに基づいて分類器(決定木、svmなど)をトレーニングしたとします。つまり、適切な入力特徴データと正しい出力ラベルが与えられます。

これで、予測(出力の予測)を行う必要がある現在の年について、現在の年の入力特徴データを提供でき、分類器が正しい出力ラベルを予測します。

ここまでは順調ですね。

ただし、現在の入力特徴データがない場合、過去のデータだけに基づいて予測を行うにはどうすればよいですか?

選挙予測の例、つまり各選挙区からどちらの政党が勝つか。これには過去のデータがたくさんありますが、現在の入力特徴データがないので、これをどのように行うのですか?

4

4 に答える 4

2

ボガトロンのコメントが正解です。入力機能を使用しておらず、代わりにラベルを要求している場合、分類子は間違ったアプローチです。過去のデータに基づいて未来をモデル化することは、多くの場合、回帰によって行われます。このための最も簡単なアプローチは、おそらく最小二乗法です。これにより、単純なモデル(カーブフィッティングを考えてください)を選択でき、そこからデータポイントを選択して予測値を計算できます。

于 2012-11-28T23:40:45.733 に答える
1

彼は分類をするつもりだったと思います。分類では、通常、既存のデータをテストとトレーニングの2つのセットに分割します。トレーニングデータに対してすべてのトレーニングを行い、完了したと思ったら、テストセットで検証します。セットのパフォーマンスが大きく異なる場合は、オーバートレーニングされているか、このタイプでは問題をまったく分類できません。データが非常に少ない場合は、k-fold戦略を試すことができます。

于 2012-12-02T16:04:24.410 に答える
0

あなたがやろうとしていることはおそらく「時系列予測」と呼ばれ、入力は過去の予測(または現在のウィンドウ位置内にある場合は過去のデータ)のウィンドウにすることができます。

于 2012-11-29T08:05:21.910 に答える
0

トレーニングセットの内容、つまり古いデータまたは現在のデータに基づいてのみ予測を行うことができます。新しいサンプルを一般化する正確な予測を取得するための最良の方法は、モデルを過度に適合させないようにすることです。モデルが予測する必要のある最新のデータの内容を正確に反映していないと思われる場合は、追加機能の取得に取り掛かる必要があります。

于 2013-03-20T22:40:24.823 に答える