machine-learning - 人気商品の提案 - タイムセンシティブデータ - データマイニング

Question

私はデータマイニングの分野の初心者です。私は非常に興味深い Data Minign の問題に取り組んでいます。データの説明は次のとおりです。

データは時間に敏感です。アイテムの属性は、時間要素とそのクラスラベルに依存します。毎週のデータをトレーニングまたはテスト記録の 1 つのインスタンスとしてグループ化しています。毎週、一部のアイテム属性がその人気度 (クラスラベル) とともに変化する場合があります。

以下のようないくつかのサンプルデータ:

IsBestPicture,MovieID,YearOfRelease,WeekYear,IsBestDirector,IsBestActor,IsBestAc‌tress,NumberOfNominations,NumberOfAwards,..,Label
-------------------------------------------------
0_1,60000161,2000,1,9-00,0,0,0,0,0,0,0
0_1,60004480,2001,22,19-02,1,0,0,11,3,0,0
0_1,60000161,2000,5,13-00,0,0,0,0,0,0,1
0_1,60000161,2000,6,14-00,0,0,0,0,0,0,0
0_1,60000161,2000,11,19-00,0,0,0,0,0,0,1

私の研究アドバイザーは、時間とともに変化する動的データに適応できる単純ベイズアルゴリズムを使用することを提案しました。

2000 年から 2004 年までのデータをトレーニングとして、2005 年をテストとして使用しています。アイテムデータセットに Week-Year 属性を含めると、Naive Bayes で確率が 0 になります。データを時系列で整理した後、データセットからこの属性を省略してもよろしいですか?

さらに、新しいテストケースを読むときにモデルを適応させる方法は? 新しいテストケースにより、クラスラベルが変更される可能性があります。

score 0 · Accepted Answer

あなたの方法についてもう少し洞察を提供できますか？たとえば、R、SPSS、Python、SQL Server 2008R2、または RapidMiner 5.2 を使用していますか? また、データのごく一部 (3 ～ 4 行セグメント) を含めることができれば、人々がこれに取り組む方法を理解するのに役立ちます。

見ているもののアイデアを得る 1 つの直接的なアプローチは、ランダムフォレスト/デシジョンツリーと K-Means クラスタリングを実行して、データ内の共通の分離点を決定することです。データのヒストグラム、平均、外れ値を一目見ただけで始めましたか?

machine-learning - 人気商品の提案 - タイム センシティブ データ - データ マイニング

1 に答える 1

Related

Reference

machine-learning - 人気商品の提案 - タイムセンシティブデータ - データマイニング