0

漠然と/確率的にラベル付けされたデータを使用する理論はありますか? たとえば、トレーニング データの異なるグループが真である確率を推定するだけのトレーニング データで分類を行うことは可能ですか?

例:

  • トレーニング データ ポイントa1、a2 : 90% 真
  • トレーニング データ ポイントb2,b2 : 50% 真
  • トレーニング データ ポイントc1、c2 : 30% 真

そして、新しいデータ ポイントdが真か偽か (あるいは、どのくらいの確率で) を知りたいですか? 訓練データacとのいくつかの類似度に基づいています。

4

2 に答える 2

0

古典的なベイズの問題のようですね。

追加情報なしで、与えられた魚が90%シーバスと50%サーモンである確率のように?

これにより、クラスAを分類する学習アルゴリズムが生成され、サンプルのエラーが最小限に抑えられます。

于 2012-07-30T12:41:00.477 に答える
0

たとえば、クラスタリング (GMM または例) の部分的なメンバーシップ。各データポイントは、各クラスに配置される確率に関するディリクレ分布を持ちます。

あるいは、「Learning with Label Noise」の何かから答えが得られるかもしれません。ほとんどの学習者は、理論的にはきれいにラベル付けされたデータを期待していますが、ノイズの多いラベルを扱う背後にはいくつかの理論があります: Learning_with_Label_Noise

編集

不確かな証拠またはソフトな証拠。

モデル p(x, y) の場合、y' は y に関するソフトエビデンスであり、p(x|y') を計算するものは次のとおりです。

p(x|y') = sum_y p(x, y|y') = sum_y p(x|y, y')p(y|y') = sum_y p(x|y)p(y|y' )

ここで、確固たる証拠は、p(y|y') = dirac(yy') の特殊なケースです。

于 2013-12-29T23:48:48.517 に答える