0

私の論文の課題では、小売店からの購入データ (+1000 次元) を含む高次元データ セットに対してクラスター分析を実行する必要があります。従来のクラスタリング アルゴリズムは高次元にはあまり適していないため (そして次元削減は実際にはオプションではない)、高次元データ用に特別に開発されたアルゴリズム (ProClus など) を試してみたいと思います。

ただし、ここで私の問題が始まります。 ProClusアルゴリズム

パラメータ d にどの値を使用すればよいかわかりません。誰でも私を助けることができますか?

4

1 に答える 1

0

これは、ProClus の多くの制限の 1 つにすぎません。

パラメータは、クラスタの平均次元です。データのどこかに線形クラスターがあることを前提としています。これはおそらく購入データには当てはまりませんが、試すことはできます。購入などのまばらなデータについては、アイテムセットの頻繁なマイニングに重点を置きます。

ユニバーサルクラスタリング アルゴリズムはありません。どのクラスタリング アルゴリズムにも、実験が必要なさまざまなパラメーターが付属しています。

クラスター分析では、結果を何らかの方法で視覚化または分析して、メソッドがうまく機能したかどうか、およびどの程度うまく機能したかを確認できることが不可欠です。

于 2016-03-15T09:50:11.593 に答える