1

そのため、このクラスタリング出力を解釈/分析する方法を見つけようとしています。clusters-0、clusters-1、clusters-2 などと呼ばれる 50 個のフォルダーがあります。これは、コマンドで「-k 50」と言ったためです。これらのフォルダーにはそれぞれ 1 つのクラスターが含まれていると思っていましたが、今はわかりません。

'--help' kmeans を使用すると、'-cl' スイッチは次のようになります。「存在する場合は、反復が行われた後にクラスタリングを実行します。」

では、実際にクラスタリングを行うには「-cl」を使用する必要があるということですか?

「-cl」が使用されていない場合、これらの 50 個のフォルダーはすべて、k-means アルゴリズム出力の単なる反復であり、実際に clustersを含む出力は生成されません。

これらの各フォルダーには 50 個のクラスターが含まれており、最後のフォルダーは最適で最も洗練されたクラスターのセットですか?

4

1 に答える 1

2

Mahout Kmeans が生成するフォルダー構造について:

/clusters - クラスターの初期重心が含まれます。これらのポイントに基づいて、個々のデータ ポイントごとに距離測定値が検出されます。

/output/clusterPoints - (キー、値) 形式のクラスタリングに使用されるクラスター ID とデータを持つ sequenceFile が含まれています。

/output/clusters-* - これらの各フォルダーには、反復ごとに新しく計算されたクラスター重心に関するデータが含まれています。

/output/clusters-*-final - 最終的なクラスターの詳細が含まれています。

  VL-1123{n=615 c=[0.655, 0.175, -1.042] r=[0.254, 0.086, 0.271]}
  VL-376{n=1607 c=[-0.068, 0.184, 0.787] r=[0.152, 0.020, 0.113]}
  VL-3492{n=375 c=[0.616, 0.111, 0.803] r=[0.289, 0.068, 0.227]}
  VL-347{n=507 c=[-0.496, 0.166, 0.574] r=[0.169, 0.078, 0.196]}
  VL-992{n=595 c=[0.154, 0.267, -0.394] r=[0.212, 0.083, 0.282]}
  VL-2468{n=189 c=[-0.696, -0.008, -0.494] r=[0.247, 0.213, 0.372]}

ここでは 6 つのクラスターがあるため、次のようになります。

ClusterID(1123)、cluster内のレコード数(n=615)、cluster centroid(c)、radius(r)

また、VL はクラスターが収束したことを表し、これは良いことです。それが役に立てば幸い!!

于 2013-08-03T07:05:13.600 に答える