7

まず、これは間違いなく宿題です (したがって、完全なコード サンプルはありません)。それは言った...

Matlab のニューラル ネットワーク ツールボックスを使用して、教師ありアルゴリズムの隣に教師なしアルゴリズムをテストする必要があります。データセットはUCI人工文字データベースです。問題は、私は教師ありアルゴリズムに関する優れたチュートリアルを持っていたのに、教師なしアルゴリズムに取り残されたことです。

を使用して自己組織化マップを作成する方法を知っているので、 を使用し selforgmapてそれをトレーニングしtrain(net, trainingSet)ます。次に何をすべきかわかりません。私が与えたデータが(うまくいけば)10個のクラスター(文字ごとに1つ)にクラスター化されていることを知っています。

次に2つの質問:

  • 次に、クラスターにラベルを付けるにはどうすればよいですか (比較パターンがある場合)。
    • これを行うとき、これを教師あり学習の問題に変えようとしていますか?
  • 教師ありアルゴリズムと比較するために、(別の) テスト セットで混同行列を作成するにはどうすればよいですか?

ここでは、概念的または専門用語に基づいた何かが欠けていると思います。私の検索はすべて、教師あり学習手法を思いつきます。正しい方向へのポイントは大歓迎です。私の既存のコードは以下の通りです:

P = load('-ascii', 'pattern');
T = load('-ascii', 'target');

% data needs to be translated
P = P';
T = T';

T = T(find(sum(T')), :);

mynet = selforgmap([10 10]);
mynet.trainparam.epochs = 5000;
mynet = train(mynet, P);


P = load('-ascii', 'testpattern');
T = load('-ascii', 'testtarget');

P = P';
T = T';
T = T(find(sum(T')), :);

Y = sim(mynet,P);
Z = compet(Y);

% this gives me a confusion matrix for supervised techniques:
C = T*Z'
4

2 に答える 2

7

ラベル付きデータの一部を使用しないため、定義により教師なしメソッドを適用しています。

「どうすればクラスターにラベルを付けることができますか (比較パターンがある場合)?」

ラベルセットのさまざまな摂動を試して、比較パターンの平均誤差 (または精度) を最小化する摂動を維持できます。クラスタリングを使用すると、好きな方法でクラスターにラベルを付けることができます。特定のパフォーマンス メトリックを最小化するまで、さまざまなラベルの割り当てを試すようなものだと考えてください。

「私がこれを行うとき、私はこれを教師あり学習の問題に変えようとしていますか?」

場合によります。クラスタリングのプロセスで (既知の) データポイントを明示的に使用する場合、これは半教師ありです。そうでない場合は、ラベリング情報を使用して評価し、教師ありアプローチと「比較」するだけです。これは監視の一形態ですが、トレーニング セットに基づくのではなく、予想される最良のパフォーマンスに基づいています (つまり、「エージェント」がクラスタに正しいラベルを指定します)。

「教師ありアルゴリズムと比較するために、(別の) テスト セットで混同行列を作成するにはどうすればよいですか?」

クラスターをラベル付きクラスに変換する方法が必要です。少数のクラスターのC <= 5)場合 (たとえば、本質的に行列を作成しC!、平均分類誤差を最小限に抑える行列を維持することができます。ただし、あなたの場合、C = 10,これは明らかに非現実的であり、重大なオーバーヘッドです!

別の方法として、以下を使用してクラスターにラベルを付けることができます (したがって、混同行列を取得できます)。

  • クラスターがアプリオリにラベル付けされるか、または既知のクラスター/クラスに属するデータによるシード処理によって導かれる半教師付きアプローチ。
  • 推定されたクラスター重心とグラウンド トゥルース ラベルの間の距離をランク付けまたは検索します。これにより、最も近いランクまたは最も類似したラベルが各クラスターに割り当てられます。
于 2012-10-10T02:40:19.563 に答える
1

このビデオは役に立ちますか?それはあなたの質問に答えませんが、クラスターの数を選択するために人間の相互作用が必要になるかもしれないことを示しています。クラスターの自動ラベル付けはさらに困難です。

あなたがそれについて考えるならば、クラスタリングが描かれた数に基づいて行われるという保証はありません。ネットワークは、線の幅やフォントのスムージングなどに基づいて数字をグループ化する場合があります。

于 2012-10-09T11:18:50.503 に答える