データ分析を実行し、クラスタリングアルゴリズム(K-meansやDBSCANなど)を実装するためのJavaMatrixライブラリを探しています
ColtとParallelColt(大小のデータセットで最高のパフォーマンス)を見つけましたが、どうやらそれらは文字列行列をサポートしていません。データセットのエントリは、Double行列のみであると想定されています。
何か提案はありますか?
よろしくお願いします。
データ分析を実行し、クラスタリングアルゴリズム(K-meansやDBSCANなど)を実装するためのJavaMatrixライブラリを探しています
ColtとParallelColt(大小のデータセットで最高のパフォーマンス)を見つけましたが、どうやらそれらは文字列行列をサポートしていません。データセットのエントリは、Double行列のみであると想定されています。
何か提案はありますか?
よろしくお願いします。
ELKIをご覧ください。任意の距離関数をサポートし、既にコサイン距離を持っています。したがって、これらのアルゴリズムをテキストデータで実行できるようです。
コサイン距離は数値ベクトルでも定義されるため、ほとんどのアプリケーションでは、文字列データを TF-IDF ベクトルに変換する必要があることに注意してください。ただし、これらのベクトルは通常スパースであるため、スパース ベクトルの処理を最適化すると効果があります。