私が達成したいのは、特定のクラスターに含まれる入力ポイントを単純に見つけることです!? 手動で 12 のクラスターにグループ化されたいくつかのドキュメントを含む個人用データセットがあります。
namedVector クラスとダンパー (clusterdumper など) の 1 つを使用して kmenas の結果を mahout .7 に解釈する方法を知っています。kmeans ドライバーを使用してクラスタリングした後、クラスタリング結果を含む clusteredPoints という名前のディレクトリが作成され、clusterDumper を使用すると、作成されたクラスターとそれぞれにあるポイントを確認できます。以下のリンクには、これに対する適切な解決策があり ます。 Mahout クラスタリングの出力を読み取る方法
しかし、タイトルで述べたように、mahout .8 の新機能である Streaming Kmeans の結果を解釈するこの機能が必要です。この機能では、データ ポイントと各クラスター シードを保持するために Centroid クラスを使用します。StreamingKMeans アルゴリズムの生成結果は、各クラスターの重心ベクトル + キーと重みで構成されるシーケンス ファイルのみです。また、この出力には、クラスター間の分布を知るための入力データ ポイントの情報はありません。しかし、クラスタリングの正確さを実感することはできません。
ところで、クラスタリング出力でこの情報を取得するにはどうすればよいですか? 実装されていないか、準備された解決策を見つけて使用できなかっただけですか? ストリーミングKMeansの結果を分析するにはどうすればよいですか?
ありがとう。