漠然と/確率的にラベル付けされたデータを使用する理論はありますか? たとえば、トレーニング データの異なるグループが真である確率を推定するだけのトレーニング データで分類を行うことは可能ですか?
例:
- トレーニング データ ポイントa1、a2 : 90% 真
- トレーニング データ ポイントb2,b2 : 50% 真
- トレーニング データ ポイントc1、c2 : 30% 真
そして、新しいデータ ポイントdが真か偽か (あるいは、どのくらいの確率で) を知りたいですか? 訓練データacとのいくつかの類似度に基づいています。