mahout クラスタリング アルゴリズムを適用するために使用できる lucene インデックスから mahout ベクトルを作成できることを読んでいます。 http://cwiki.apache.org/confluence/display/MAHOUT/Creating+Vectors+from+Text
Lucene インデックスのドキュメントに K-means クラスタリング アルゴリズムを適用したいのですが、このアルゴリズム (または階層クラスタリング) を適用して、これらのドキュメントで意味のあるクラスタを抽出する方法が明確ではありません。
このページhttp://cwiki.apache.org/confluence/display/MAHOUT/k-Means は、アルゴリズムが 2 つの入力ディレクトリを受け入れると述べています。1 つはデータ ポイント用、もう 1 つは初期クラスター用です。私のデータポイントはドキュメントですか? これらが私のドキュメント (またはそのベクトル) であることを「宣言」するにはどうすればよいですか?
文法が下手で申し訳ありません
ありがとうございました