ここでいくつかのガイダンスが必要です。プロジェクトの TF-IDF の結果を正規化しようとしています。ということで、TF-IDFの次は何を考えているのでしょうか?これらの正規化された TF-IDF に対して k-means クラスタリングを実行したかったのですが、もうその時でしょうか? この前に、Lucene を使用してインデックスを作成しました。可能であれば、 Windows を使用しているため、 Mahout を使用したくありません (cygwin も使用したくない)。
これらの lucene-ed および tf-idf-ed の結果でk-means を実行する方法 (および方法) に関する提案はありますか? ここで迷って..