私の質問:ポジティブでニュートラルなデータのみで分類子をトレーニングする方法は?
教育目的でパーソナライズされた記事レコメンデーション システムを構築しています。私が使用するデータは Instapaper からのものです。
データセット
肯定的なデータしかありません: - 既読/未読に関係なく、読んで「気に入った」記事
そして中立的なデータ (私は興味を示したが、とにかく後で気に入らないかもしれないため):
私が持っていないデータは否定的なデータです: - 後で読むために Instapaper に送信しなかった記事 (興味はありませんが、そのページ/記事を閲覧したことがあります) - クリックすらしていないかもしれないが、記事私はそれをアーカイブしているかもしれませんし、持っていないかもしれません。
私の問題
このような問題では、基本的に負のデータが欠落しています。次の解決策を考えましたが、まだ解決していません。
1) 多数の負のデータを分類器に与える 長所: すぐに負のデータを分類器に教える 短所: 好きな記事の数が増えると、分類器への負のデータの影響が薄くなる
2) 「ニュートラル」なデータをネガティブなデータに変える 長所: 必要なポジティブなデータと (新しい) ネガティブなデータをすべて手に入れた記事ですが、おそらく価値の低いクラスとして。