クロールされたページ (25,000 を超えるドキュメント、個人データ セット) でクラスタリング テストを実行しました。clusterdump を実行しました:
$MAHOUT_HOME/bin/mahout clusterdump --seqFileDir output/clusters-1/ --output clusteranalyze.txt
クラスター ダンパーを実行した後の出力には、25 個の要素 "VL-xxxxx {}" が表示されます。
VL-24130{n=1312 c=[0:0.017, 10:0.007, 11:0.005, 14:0.017, 31:0.016, 35:0.006, 41:0.010, 43:0.008, 52:0.005, 59:0.010, 68:0.037, 72:0.056, 87:0.028, ... ] r=[0:0.442, 10:0.271, 11:0.198, 14:0.369, 31:0.421, ... ]}
...
VL-24868{n=311 c=[0:0.042, 11:0.016, 17:0.046, 72:0.014, 96:0.044, 118:0.015, 135:0.016, 195:0.017, 318:0.040, 319:0.037, 320:0.036, 330:0.030, ...] ] r=[0:0.740, 11:0.287, 17:0.576, 72:0.239, 96:0.549, 118:0.273, ...]}
この出力をどのように解釈しますか?
つまり、特定のクラスターに属するドキュメント ID を探しています。
の意味は何ですか:
- VL-x?
- n=yc=[z:z', ...]
- r=[z'':z''', ...]
0:0.017 は、「0」がこのクラスターに属するドキュメント ID であることを意味しますか?
CL、n、c、r の意味については、mahout の wiki ページを既に読んでいます。しかし、誰かが私にそれらをよりよく説明してくれるか、もう少し詳しく説明されているリソースを指摘してもらえますか?
ばかげた質問をしている場合は申し訳ありませんが、私はApache mahoutの初心者であり、クラスタリングのコース割り当ての一部として使用しています。