教師なしクラスタリングで見つかったクラスター ラベルの予測可能性を評価することに興味があります。患者で構成されるデータセットがあり、教師なしクラスタリング手法を使用して、患者の遺伝子発現プロファイルに基づいて患者をグループ化するとします。私の方法では、4 つのクラスターが検出されます。ここで、このクラスター メンバーシップが発現データから予測可能かどうかを調べたいと思います。出力変数として完全なデータの教師なしクラスター ラベルを使用して、交差検証方法で教師あり分類器をトレーニングします。そこで、データの 80% を使用して分類器をトレーニングし、残りの 20% の精度を評価します。
出力クラスター ラベルは完全なデータから学習されるため、この方法は偏っていますか? もしそうなら、どうすれば偏りのない方法でこれを行うことができますか? 相互検証された方法でクラスタリングを行う場合、異なるフォールド間でクラスターを手動で関連付ける必要があると思います。4 つのクラスターのうちの 1 つと他のクラスターの予測可能性に特に関心があるため、何らかの手動分析を通じて、データの各フォールド クラスタリングに含まれるクラスターを特定する必要があります。