0

クラスタリングには、reuters 21578 データセットと mahout k-means の一部を使用しました。より具体的には、カテゴリ「トピック」に一意の値を持つテキストのみを抽出しました。そのため、1 つのトピックに属する 9494 個のテキストが残っています。 66 のカテゴリの中で。seqdirectory を使用してテキストからシーケンス ファイルを作成し、次に seq2sparse を使用してベクトルを作成しました。次に、コサイン距離測定で k-means を実行します (谷本とユークリッドも試してみましたが、うまくいきませんでした)、cd=0.1 および k=66 (カテゴリの数と同じ)。そこで、カスタムJavaコードとシルエットのmatlab実装を使用してシルエット測定で結果を評価しようとしました(コードにエラーがないことを確認するため)。クラスタリングの平均シルエットは0.0405であることがわかりました. 最良のクラスタリングが 1 に近い平均シルエット値を与える可能性があることを知っているので、取得したクラスタリングの結果はまったく良くないことがわかります。これは Mahout のせいなのか、それともロイター データセットの分類の質が低いのか?

PS: 私は Mahout 0.7 を使用しています

PS2: 下手な英語でごめんなさい..

4

1 に答える 1

0

私は実際に Mahout を使用したことがないので、デフォルトで何をするかはわかりませんが、デフォルトで使用される距離メトリックの種類を確認することを検討してください。たとえば、メトリクスが正規化されていないドキュメントの単語数のユークリッド距離である場合、ドキュメントの長さがドキュメント間の意味のある比較を支配するため、クラスターの品質は非常に低くなることが予想されます。一方、正規化されたコサイン距離、または tf-idf 加重単語数のようなものは、はるかに優れています。

注目すべきもう 1 つの点は、ロイター 21578 のトピックの分布です。「acq」や「earn」などのいくつかのトピックに大きく偏っていますが、他のトピックは数回しか使用されていません。これにより、適切な外部クラスタリング メトリックを達成することが困難になる場合があります。

于 2013-02-19T01:08:50.760 に答える