streaming - mahout 0.8 で StreamingKMeans の結果を解釈する

Question

私が達成したいのは、特定のクラスターに含まれる入力ポイントを単純に見つけることです!? 手動で 12 のクラスターにグループ化されたいくつかのドキュメントを含む個人用データセットがあります。

namedVector クラスとダンパー (clusterdumper など) の 1 つを使用して kmenas の結果を mahout .7 に解釈する方法を知っています。kmeans ドライバーを使用してクラスタリングした後、クラスタリング結果を含む clusteredPoints という名前のディレクトリが作成され、clusterDumper を使用すると、作成されたクラスターとそれぞれにあるポイントを確認できます。以下のリンクには、これに対する適切な解決策があります。 Mahout クラスタリングの出力を読み取る方法

しかし、タイトルで述べたように、mahout .8 の新機能である Streaming Kmeans の結果を解釈するこの機能が必要です。この機能では、データポイントと各クラスターシードを保持するために Centroid クラスを使用します。StreamingKMeans アルゴリズムの生成結果は、各クラスターの重心ベクトル + キーと重みで構成されるシーケンスファイルのみです。また、この出力には、クラスター間の分布を知るための入力データポイントの情報はありません。しかし、クラスタリングの正確さを実感することはできません。

ところで、クラスタリング出力でこの情報を取得するにはどうすればよいですか? 実装されていないか、準備された解決策を見つけて使用できなかっただけですか? ストリーミングKMeansの結果を分析するにはどうすればよいですか?

ありがとう。

streaming - mahout 0.8 で StreamingKMeans の結果を解釈する

0 に答える 0

Related

Reference