1

教師なしクラスタリングで見つかったクラスター ラベルの予測可能性を評価することに興味があります。患者で構成されるデータセットがあり、教師なしクラスタリング手法を使用して、患者の遺伝子発現プロファイルに基づいて患者をグループ化するとします。私の方法では、4 つのクラスターが検出されます。ここで、このクラスター メンバーシップが発現データから予測可能かどうかを調べたいと思います。出力変数として完全なデータの教師なしクラスター ラベルを使用して、交差検証方法で教師あり分類器をトレーニングします。そこで、データの 80% を使用して分類器をトレーニングし、残りの 20% の精度を評価します。

出力クラスター ラベルは完全なデータから学習されるため、この方法は偏っていますか? もしそうなら、どうすれば偏りのない方法でこれを行うことができますか? 相互検証された方法でクラスタリングを行う場合、異なるフォールド間でクラスターを手動で関連付ける必要があると思います。4 つのクラスターのうちの 1 つと他のクラスターの予測可能性に特に関心があるため、何らかの手動分析を通じて、データの各フォールド クラスタリングに含まれるクラスターを特定する必要があります。

4

1 に答える 1

1

正直なところ、問題全体が間違っているようです。何らかのデータ パーティショニングを構築するアルゴリズム (クラスタリング手法) を使用している場合、教師ありメソッドによって常に予測可能です。実際、使用されているクラスターのファミリーを知っていれば、完全な分類器を (ほぼ 100% の精度で) 提案できます。問題文を再考する必要があります。特に、各クラスタリング手法は、要素を同じクラスタに配置する必要があるといういくつかの制約を追加することにより、分類子に変換できます。したがって、 clusterer を使用すると、トレーニングセットで取得した要素を特定のラベルに従ってクラスターする半教師ありメソッドにC簡単に変換できます。このようにして、私たちはほとんどC100% の精度につながるまったく同じラベル付けを常に作成します。

有効な仮説を作成する唯一の方法は、専門家によってこれらのラベルを割り当てることです。そうすると、「制約のある専門家」である分類子を構築できなくなります。したがって、上記の推論は失敗します。言い換えれば、あるラベル付けが教師付きの方法で予測可能かどうかをテストしたい場合は、モデル化が困難な方法でこれらのラベルを取得する必要があります(人間の専門家、自然、物理学、実験、高価な数値評価など)。教師あり学習の全体的なポイントは、この基礎となるモデルを見つけることであるため、クラスターモデルのような単純なものです。このモデルが事前に (アルゴリズム自体ではなく、私たちに) 知られている場合、推論全体が正しくありません。次の質問にのみ回答します。

使用される分類器の仮説空間のファミリーに類似した、選択されたクラスタリング手法によって分析されるモデルのファミリーです。

またはより正式に

考慮されたデータセットで実行された選択されたクラスタリング アルゴリズムによって誘導された分布と一致する分類子が使用されます。

于 2015-04-15T11:01:11.837 に答える