1

データ分析を実行し、クラスタリングアルゴリズム(K-meansやDBSCANなど)を実装するためのJavaMatrixライブラリを探しています

ColtとParallelColt(大小のデータセットで最高のパフォーマンス)を見つけましたが、どうやらそれらは文字列行列をサポートしていません。データセットのエントリは、Double行列のみであると想定されています。

何か提案はありますか?

よろしくお願いします。

4

1 に答える 1

0

ELKIをご覧ください。任意の距離関数をサポートし、既にコサイン距離を持っています。したがって、これらのアルゴリズムをテキストデータで実行できるようです。

コサイン距離は数値ベクトルでも定義されるため、ほとんどのアプリケーションでは、文字列データを TF-IDF ベクトルに変換する必要があることに注意してください。ただし、これらのベクトルは通常スパースであるため、スパース ベクトルの処理を最適化すると効果があります。

于 2012-02-28T07:05:46.133 に答える