2

クラスタリング (教師なし学習) を使用して形成されたクラスターの評価についてはまだ研究中ですか?

グーグルで調べてみましたが、得られる測定値は理論的すぎます。形成されたクラスターを評価するために使用しているメカニズムを人々が共有できれば素晴らしいことです。Java EE、Java ME、RMI、JVM などを含む Java クラスターがあるとします。別のクラスターには NoSQL があり、Neo4j、OrientDB、CouchDB などがあります。正確なクラスター。

ただし、トレーニングとテストの後、MySQL、NoSQL クラスターの下の Oracle と言う場合があるため、手動/視覚的な解釈を行ってから、アルゴリズムを再トレーニングするか微調整して、より良いクラスタリングを取得します。

今、クラスターを手動で視覚化するこのプロセスを自動化し、形成されたクラスターの精度を提供するシステムを手に入れたいと考えています。検索で使用される Precision 、 Recall 、 NDCG 、 Map などに似たものを探しています。私のクラスターの長さはさまざまであり、n 個の異なるクラスターが形成される可能性があるため、精度/再現率は適切ではありません。

4

2 に答える 2

2

私はクラスタリングを使用したプロジェクトに取り組んでおり、これまで同じ質問をしています。

現在、いくつかのクラスタリング アルゴリズムが組み込まれているJavaMLライブラリを使用しています (私の場合は K-means を使用しています)。このライブラリには、このアルゴリズムを評価するための関数もいくつかあります。

クラスターの「品質」を評価するために使用している関数は、各クラスターの要素の二乗誤差の合計です。この評価方法を数学的に説明するのではなく、基本的に二乗誤差の合計は、各クラスターの各要素からそれぞれのクラスター重心までの距離を要約します (K-means の場合)。これは、視覚的な比較よりも優れている可能性があるため、完全で理想的な評価ではありません (私は同じ問題を抱えています) が、少なくとも「クラスターがどれだけ優れているか」を特定する正式な方法です。安価で高速で、クラスターの全体像を把握できます。

また、' Cluster labeling ' 問題を確認することもできます。些細なことではありませんが、同じ問題を攻撃するつもりです。

あなたの質問に対する正しい答えは、使用しているクラスタリングアルゴリズムに依存すると思います。これは簡単な主題ではないため、ここでいくつかの数学的理論を理解してください:)

頑張ってください!

于 2012-02-02T12:08:45.247 に答える
1

通常、クラスタリングは、教師なしおよび半教師ありの学習アルゴリズムとして使用されます。「ただし、トレーニングとテストの後、MySQL と言うかもしれません…..」と述べたので、アプリケーションに半教師付きクラスタリング アルゴリズムを使用していると仮定します。

入力機能の数を増やすことができます (または、入力機能の数を増やしながらいくつかの実験を行うことができます)。システムの精度が機能ベクトルのサイズに対してどのように変化するかを確認してください。

さらに、さまざまなクラスター アルゴリズムを評価し、最高の予測精度を提供する最適なアルゴリズムを選択できます。

于 2012-02-02T09:01:39.840 に答える