machine-learning - 確率的にラベル付けされたデータによる学習の理論

Question

漠然と/確率的にラベル付けされたデータを使用する理論はありますか? たとえば、トレーニングデータの異なるグループが真である確率を推定するだけのトレーニングデータで分類を行うことは可能ですか?

例：

そして、新しいデータポイントdが真か偽か (あるいは、どのくらいの確率で) を知りたいですか? 訓練データacとのいくつかの類似度に基づいています。

score 0 · Accepted Answer

古典的なベイズの問題のようですね。

追加情報なしで、与えられた魚が90％シーバスと50％サーモンである確率のように？

これにより、クラスAを分類する学習アルゴリズムが生成され、サンプルのエラーが最小限に抑えられます。

score 0 · Accepted Answer

たとえば、クラスタリング (GMM または例) の部分的なメンバーシップ。各データポイントは、各クラスに配置される確率に関するディリクレ分布を持ちます。

あるいは、「Learning with Label Noise」の何かから答えが得られるかもしれません。ほとんどの学習者は、理論的にはきれいにラベル付けされたデータを期待していますが、ノイズの多いラベルを扱う背後にはいくつかの理論があります: Learning_with_Label_Noise

編集

不確かな証拠またはソフトな証拠。

モデル p(x, y) の場合、y' は y に関するソフトエビデンスであり、p(x|y') を計算するものは次のとおりです。

p(x|y') = sum_y p(x, y|y') = sum_y p(x|y, y')p(y|y') = sum_y p(x|y)p(y|y' )

ここで、確固たる証拠は、p(y|y') = dirac(yy') の特殊なケースです。