normalization - 正規化された TF-IDF で K-means を実行する方法

Question

ここでいくつかのガイダンスが必要です。プロジェクトの TF-IDF の結果を正規化しようとしています。ということで、TF-IDFの次は何を考えているのでしょうか？これらの正規化された TF-IDF に対して k-means クラスタリングを実行したかったのですが、もうその時でしょうか? この前に、Lucene を使用してインデックスを作成しました。可能であれば、 Windows を使用しているため、 Mahout を使用したくありません (cygwin も使用したくない)。

これらの lucene-ed および tf-idf-ed の結果でk-means を実行する方法 (および方法) に関する提案はありますか? ここで迷って..

score 0 · Accepted Answer

次のように、'''球面 k-means''' を調べる必要があります。

通常のk-meansはユークリッド距離に関連付けられています
通常の k-means は、高次元のスパースデータではうまく機能しません

normalization - 正規化された TF-IDF で K-means を実行する方法

1 に答える 1

Related

Reference