indexing - mahout lucene ドキュメントクラスタリングハウツー?

Question

mahout クラスタリングアルゴリズムを適用するために使用できる lucene インデックスから mahout ベクトルを作成できることを読んでいます。 http://cwiki.apache.org/confluence/display/MAHOUT/Creating+Vectors+from+Text

Lucene インデックスのドキュメントに K-means クラスタリングアルゴリズムを適用したいのですが、このアルゴリズム (または階層クラスタリング) を適用して、これらのドキュメントで意味のあるクラスタを抽出する方法が明確ではありません。

このページhttp://cwiki.apache.org/confluence/display/MAHOUT/k-Means は、アルゴリズムが 2 つの入力ディレクトリを受け入れると述べています。1 つはデータポイント用、もう 1 つは初期クラスター用です。私のデータポイントはドキュメントですか? これらが私のドキュメント (またはそのベクトル) であることを「宣言」するにはどうすればよいですか?

文法が下手で申し訳ありません

ありがとうございました

score 1 · Accepted Answer

1

かなり良いハウツーはここにあります: apache mahout と apache lucene の統合

于 2011-04-06T21:03:26.737 に答える

score 0 · Accepted Answer

@ maiky このページで、出力の読み取りと clusterdump ユーティリティの使用について詳しく読むことができます -> https://cwiki.apache.org/confluence/display/MAHOUT/Cluster+Dumper

indexing - mahout lucene ドキュメント クラスタリング ハウツー?

3 に答える 3

Related

Reference

indexing - mahout lucene ドキュメントクラスタリングハウツー?