2

非数値データセットにファジー c-means を適用できますか? つまり、カテゴリカルまたは数値とカテゴリの混合.. はいの場合 (そう願っています :( ):

  • クラスターの中心を計算する方法

いいえの場合、代替手段は何ですか..これらのデータをファジークラスター化する方法は?

返信が必要です 助けてください

注: Jacard の係数を使用して 2 点間の距離を計算しましたが、クラスターの中心を計算する方法がわかりませんでした。添付ファイルを参照してください。ここに画像の説明を入力 ジャカード係数

4

1 に答える 1

4

データを数値形式に変換する必要があります。それにはさまざまな方法がありますが、そのうちの 2 つは次のとおりです。

  • 特徴数のベクトルを使用する (テキストの分類などで一般的)
  • ワンホット表現を使用します。この場合、 n 個の個別の値を取ることができるカテゴリ機能は、 nビットの文字列として表されます。機能がその許容範囲内にi番目の値を持つ場合、 i番目のビットのみが設定されます。

どちらも、多くの機械学習プログラムが内部で行う非常に一般的な変換です。また、ユークリッドとは異なるメトリックを試してみることもできます。特に。ワンホット表現を使用しますが、データによっては、L1 ノルム (マンハッタン/都市ブロックの距離) がより適切な場合があります。

それとは別に、指定された式を変換されたデータセットに適用するだけです。

于 2011-10-08T18:36:16.603 に答える