私はデータマイニングの分野の初心者です。私は非常に興味深い Data Minign の問題に取り組んでいます。データの説明は次のとおりです。
データは時間に敏感です。アイテムの属性は、時間要素とそのクラス ラベルに依存します。毎週のデータをトレーニングまたはテスト記録の 1 つのインスタンスとしてグループ化しています。毎週、一部のアイテム属性がその人気度 (クラス ラベル) とともに変化する場合があります。
以下のようないくつかのサンプルデータ:
IsBestPicture,MovieID,YearOfRelease,WeekYear,IsBestDirector,IsBestActor,IsBestActress,NumberOfNominations,NumberOfAwards,..,Label
-------------------------------------------------
0_1,60000161,2000,1,9-00,0,0,0,0,0,0,0
0_1,60004480,2001,22,19-02,1,0,0,11,3,0,0
0_1,60000161,2000,5,13-00,0,0,0,0,0,0,1
0_1,60000161,2000,6,14-00,0,0,0,0,0,0,0
0_1,60000161,2000,11,19-00,0,0,0,0,0,0,1
私の研究アドバイザーは、時間とともに変化する動的データに適応できる単純ベイズ アルゴリズムを使用することを提案しました。
2000 年から 2004 年までのデータをトレーニングとして、2005 年をテストとして使用しています。アイテム データ セットに Week-Year 属性を含めると、Naive Bayes で確率が 0 になります。データを時系列で整理した後、データ セットからこの属性を省略してもよろしいですか?
さらに、新しいテストケースを読むときにモデルを適応させる方法は? 新しいテスト ケースにより、クラス ラベルが変更される可能性があります。