0

私はデータマイニングの分野の初心者です。私は非常に興味深い Data Minign の問題に取り組んでいます。データの説明は次のとおりです。

データは時間に敏感です。アイテムの属性は、時間要素とそのクラス ラベルに依存します。毎週のデータをトレーニングまたはテスト記録の 1 つのインスタンスとしてグループ化しています。毎週、一部のアイテム属性がその人気度 (クラス ラベル) とともに変化する場合があります。

以下のようないくつかのサンプルデータ:

IsBestPicture,MovieID,YearOfRelease,WeekYear,IsBestDirector,IsBestActor,IsBestAc‌​tress,NumberOfNominations,NumberOfAwards,..,Label
-------------------------------------------------
0_1,60000161,2000,1,9-00,0,0,0,0,0,0,0
0_1,60004480,2001,22,19-02,1,0,0,11,3,0,0
0_1,60000161,2000,5,13-00,0,0,0,0,0,0,1
0_1,60000161,2000,6,14-00,0,0,0,0,0,0,0
0_1,60000161,2000,11,19-00,0,0,0,0,0,0,1

私の研究アドバイザーは、時間とともに変化する動的データに適応できる単純ベイズ アルゴリズムを使用することを提案しました。

2000 年から 2004 年までのデータをトレーニングとして、2005 年をテストとして使用しています。アイテム データ セットに Week-Year 属性を含めると、Naive Bayes で確率が 0 になります。データを時系列で整理した後、データ セットからこの属性を省略してもよろしいですか?

さらに、新しいテストケースを読むときにモデルを適応させる方法は? 新しいテスト ケースにより、クラス ラベルが変更される可能性があります。

4

1 に答える 1

0

あなたの方法についてもう少し洞察を提供できますか?たとえば、R、SPSS、Python、SQL Server 2008R2、または RapidMiner 5.2 を使用していますか? また、データのごく一部 (3 ~ 4 行セグメント) を含めることができれば、人々がこれに取り組む方法を理解するのに役立ちます。

見ているもののアイデアを得る 1 つの直接的なアプローチは、ランダム フォレスト/デシジョン ツリーと K-Means クラスタリングを実行して、データ内の共通の分離点を決定することです。データのヒストグラム、平均、外れ値を一目見ただけで始めましたか?

于 2012-11-27T13:30:01.843 に答える