0

貧困、人口などのデータを含む米国の郡のリストが与えられ、ak 平均アルゴリズムでクラスタリングを実行しました。クラスタリングを次のように相互検証しました。郡をトレーニング セットとホールドアウト セットに分割しました。クラスタリング中に貧困機能を除外し、ホールドアウト セットの各郡について、最も近いクラスターを見つけ、最も近いクラスターの平均貧困から郡の貧困を差し引きました。最後に、上記の差を 2 乗し、ホールドアウト セット内の郡ごとに合計してから、ホールドアウト セット内の郡の数で割りました。次に同じことをしましたが、今回は貧困機能がクラスタリングに参加しました。エラーが以前よりも大幅に減少したことに気付きましたが、これはどういうわけか「不正行為」であると読みました。

4

1 に答える 1

1

貧困属性を使用して貧困属性を判別しようとしています。

別の例として、車のセットがあるとします。車のいくつかの機能が、特定の色を持つ可能性を高めることを知っています。車の色 (トレーニング セットを除く) はわかりませんが、モデルや年式など、他の多くの属性は知っています。トレーニング セットを使用してクラスタリング モデルを構築し、それをメイン セットに適用します。クラスタには、同じ色の車が含まれているはずです。

前もって色を知らなかったのですが、他の属性を使用して、とにかく色に応じて車をクラスター化できたはずです。

color 属性を使用してクラスタリング モデルを構築した場合、何も達成できません。この色を使用して、同系色の車をクラスター化します。印象的。どんな知識が得られるでしょうか?

于 2012-12-09T10:55:22.537 に答える