0

Python で公称データをクラスタリングするクラスタリング アルゴリズムを見つけようとしています。そのために、RapidMiner で DBSCAN アルゴリズムを試してみましたが、公称データで動作しました。しかし、scikit-learn が提供する DBSCAN アルゴリズムで同じデータセットを試すと、関数が文字列を float に変換できないというエラーが発生しました。

Rapidminer と scikit-learn の DBSCAN は異なりますか?どうすればその問題を解決できますか? また、公称データで機能する別のクラスタリング アルゴリズムを教えていただければ、それは素晴らしいでしょうか?

4

2 に答える 2

2

SciPy のデフォルトはユークリッド距離 ( metric='euclidean') ですが、これは公称データには定義されていません。

距離測定を指定する必要があります!

于 2014-07-21T09:44:55.050 に答える
1

RapidMiner は、公称距離を含むさまざまな距離測定を実装します。これは、DBSCAN およびその他のアルゴリズムで使用されます。

2 つの例の間の距離は、属性の値が同じ場合は 0、それ以外の場合は 1 です。つまり、「Raspberry」は「Apple」および「Computer」から 1 の距離にあります。また、「Apple」は「Raspberry」や「Computer」などとはひと味違います。

于 2014-07-21T08:59:51.240 に答える