私はクラスタリングにかなり慣れていないので、クラスタリング アルゴリズムと評価を提供するさまざまな API があることを認識しています。
私の目的は、ドキュメント (ファイルの内容) をクラスター化し、生成されたクラスターのトピックを生成することです。
現在、LDA を使用するクラスターには Apache Mahout を実装し、クラスターのトピック生成には Mallet を実装しています。
私が今しなければならないことは、他のいくつかのクラスタリング アルゴリズムを実装し、それらを LDA と比較して、各アルゴリズムのパフォーマンスを評価し、LDA が私の仕事に適したアルゴリズムであることを正当化することです。
クラスタリングアルゴリズムの評価には、必要に応じて異なる基準での内部または外部評価が含まれることをグーグルで理解しました。ただし、アルゴリズムごとに異なる基準/評価メトリックが使用されます。
私の場合、クラスタリングにさまざまなアルゴリズムを使用しているため、クラスタ結果のパフォーマンスを評価するのに役立つように利用できる適切なフレームワークはありますか? または、このソリューションに代わるものはありますか?
JAVA言語を使用してこれに取り組む必要があります