私の論文の課題では、小売店からの購入データ (+1000 次元) を含む高次元データ セットに対してクラスター分析を実行する必要があります。従来のクラスタリング アルゴリズムは高次元にはあまり適していないため (そして次元削減は実際にはオプションではない)、高次元データ用に特別に開発されたアルゴリズム (ProClus など) を試してみたいと思います。
パラメータ d にどの値を使用すればよいかわかりません。誰でも私を助けることができますか?
私の論文の課題では、小売店からの購入データ (+1000 次元) を含む高次元データ セットに対してクラスター分析を実行する必要があります。従来のクラスタリング アルゴリズムは高次元にはあまり適していないため (そして次元削減は実際にはオプションではない)、高次元データ用に特別に開発されたアルゴリズム (ProClus など) を試してみたいと思います。
パラメータ d にどの値を使用すればよいかわかりません。誰でも私を助けることができますか?
これは、ProClus の多くの制限の 1 つにすぎません。
パラメータは、クラスタの平均次元です。データのどこかに線形クラスターがあることを前提としています。これはおそらく購入データには当てはまりませんが、試すことはできます。購入などのまばらなデータについては、アイテムセットの頻繁なマイニングに重点を置きます。
ユニバーサルクラスタリング アルゴリズムはありません。どのクラスタリング アルゴリズムにも、実験が必要なさまざまなパラメーターが付属しています。
クラスター分析では、結果を何らかの方法で視覚化または分析して、メソッドがうまく機能したかどうか、およびどの程度うまく機能したかを確認できることが不可欠です。