0

ここでいくつかのガイダンスが必要です。プロジェクトの TF-IDF の結果を正規化しようとしています。ということで、TF-IDFの次は何を考えているのでしょうか?これらの正規化された TF-IDF に対して k-means クラスタリングを実行したかったのですが、もうその時でしょうか? この前に、Lucene を使用してインデックスを作成しました。可能であれば、 Windows を使用しているため、 Mahout を使用したくありません (cygwin も使用したくない)。

これらの lucene-ed および tf-idf-ed の結果でk-means を実行する方法 (および方法) に関する提案はありますか? ここで迷って..

4

1 に答える 1

0

次のように、'''球面 k-means''' を調べる必要があります。

  • 通常のk-meansはユークリッド距離に関連付けられています
  • 通常の k-means は、高次元のスパース データではうまく機能しません
于 2012-07-02T17:15:29.180 に答える