3

半教師あり学習では、ラベル付きデータ(L)のセットを使用してモデルをトレーニングし、ラベルなしデータ(U)のセットを予測してから、新しいラベル付きデータ(L')と元のラベル付きデータ(L)を完全なラベル付きデータとしてグループ化します。データ。

テストデータの抽出方法をお聞きしたいと思います。

  1. (L union L')からテストデータを抽出する必要があります
  2. (L)からテストデータを抽出する必要があります

どちらが正しいですか?

テストデータが(L union L')から抽出された場合、L'の答えが間違っている可能性があるため、結果は意味がありません...?

================================================== ========新規編集

私は別の考えを持っています.....

3.最初に、ラベル付けされたデータ(L)をトレーニングデータ(L_train)とテストデータ(L_test)に分割する必要があります。

次に、L_trainを使用してモデルをトレーニングし、それを使用してラベルなしデータのセット(U)を予測し、予測結果(L')とL_trainをグループ化します。

そして、(L_train union L')を使用して、L_testでテストするモデルをトレーニングします。

1,2,3のどちらが正しいですか?返信ありがとうございます。

4

1 に答える 1

2

で分類器をトレーニングしますL。最初に相互検証を実行して、いくつかのメソッドパラメータを適合させることができますP。パラメータを使用して、ラベル付けされたデータからPモデルを構築します。次に、モデルを使用して、ラベルのないデータにラベルを付けます。(割り当てられたクラスに最も自信を持って)からの例を。で結合します。次に、すべての例が分類されるまで手順を繰り返します。MLMUUL

-編集-

最も適切なアプローチは3番目のアプローチだと思います。しかし、私はそれを正しく理解していないかもしれないので、ここに行きます。

とに分割Lします。を使用して分類器をトレーニングし、この分類器を使用して分類します(上記の方法論に従って)。ラベル付きの和集合から、新しい分類器を作成し、それを使用して分類します。これらの分類の違いは、評価尺度(分類精度など)に使用できます。L_trainL_testL_trainUUL_trainL_test

于 2012-11-20T09:51:11.110 に答える