クラスタリングには、reuters 21578 データセットと mahout k-means の一部を使用しました。より具体的には、カテゴリ「トピック」に一意の値を持つテキストのみを抽出しました。そのため、1 つのトピックに属する 9494 個のテキストが残っています。 66 のカテゴリの中で。seqdirectory を使用してテキストからシーケンス ファイルを作成し、次に seq2sparse を使用してベクトルを作成しました。次に、コサイン距離測定で k-means を実行します (谷本とユークリッドも試してみましたが、うまくいきませんでした)、cd=0.1 および k=66 (カテゴリの数と同じ)。そこで、カスタムJavaコードとシルエットのmatlab実装を使用してシルエット測定で結果を評価しようとしました(コードにエラーがないことを確認するため)。クラスタリングの平均シルエットは0.0405であることがわかりました. 最良のクラスタリングが 1 に近い平均シルエット値を与える可能性があることを知っているので、取得したクラスタリングの結果はまったく良くないことがわかります。これは Mahout のせいなのか、それともロイター データセットの分類の質が低いのか?
PS: 私は Mahout 0.7 を使用しています
PS2: 下手な英語でごめんなさい..