12

mahout クラスタリング アルゴリズムを適用するために使用できる lucene インデックスから mahout ベクトルを作成できることを読んでいます。 http://cwiki.apache.org/confluence/display/MAHOUT/Creating+Vectors+from+Text

Lucene インデックスのドキュメントに K-means クラスタリング アルゴリズムを適用したいのですが、このアルゴリズム (または階層クラスタリング) を適用して、これらのドキュメントで意味のあるクラスタを抽出する方法が明確ではありません。

このページhttp://cwiki.apache.org/confluence/display/MAHOUT/k-Means は、アルゴリズムが 2 つの入力ディレクトリを受け入れると述べています。1 つはデータ ポイント用、もう 1 つは初期クラスター用です。私のデータポイントはドキュメントですか? これらが私のドキュメント (またはそのベクトル) であることを「宣言」するにはどうすればよいですか?

文法が下手で申し訳ありません

ありがとうございました

4

3 に答える 3

1

かなり良いハウツーはここにあります: apache mahout と apache lucene の統合

于 2011-04-06T21:03:26.737 に答える
0

@ maiky このページで、出力の読み取りと clusterdump ユーティリティの使用について詳しく読むことができます -> https://cwiki.apache.org/confluence/display/MAHOUT/Cluster+Dumper

于 2010-09-03T11:38:58.417 に答える