cluster-analysis - Rapidminer および scikit-learn の DBSCAN アルゴリズム

Question

Python で公称データをクラスタリングするクラスタリングアルゴリズムを見つけようとしています。そのために、RapidMiner で DBSCAN アルゴリズムを試してみましたが、公称データで動作しました。しかし、scikit-learn が提供する DBSCAN アルゴリズムで同じデータセットを試すと、関数が文字列を float に変換できないというエラーが発生しました。

Rapidminer と scikit-learn の DBSCAN は異なりますか?どうすればその問題を解決できますか? また、公称データで機能する別のクラスタリングアルゴリズムを教えていただければ、それは素晴らしいでしょうか?

score 2 · Accepted Answer

SciPy のデフォルトはユークリッド距離 ( metric='euclidean') ですが、これは公称データには定義されていません。

距離測定を指定する必要があります!

score 1 · Accepted Answer

RapidMiner は、公称距離を含むさまざまな距離測定を実装します。これは、DBSCAN およびその他のアルゴリズムで使用されます。

2 つの例の間の距離は、属性の値が同じ場合は 0、それ以外の場合は 1 です。つまり、「Raspberry」は「Apple」および「Computer」から 1 の距離にあります。また、「Apple」は「Raspberry」や「Computer」などとはひと味違います。

cluster-analysis - Rapidminer および scikit-learn の DBSCAN アルゴリズム

2 に答える 2

Related

Reference