1

ドキュメントとクラスター間の類似性を比較するために、次の対数尤度式を使用しています。log p(d | c)= sum(c(w、d)* log p(w | c)); c(w、d)はドキュメント内の単語の頻度であり、p(w | c)は単語wがクラスターcによって生成される可能性です。

問題は、この類似性に基づいて、ドキュメントが間違ったクラスターに割り当てられることが多いことです。log p(d | c)が最も高いクラスターにドキュメントを割り当てると(通常は負の値であるため–log p(d | c))、ドキュメントですが、クラスター内のこれらの単語の確率は低いです。log p(d | c)が最も低いクラスターにドキュメントを割り当てると、1ワードでのみドキュメントと交差するクラスターになります。誰かがloglikelihoodを正しく使用する方法を教えてもらえますか?この関数をJavaで実装しようとしています。私はすでにグーグルの学者を調べましたが、テキストマイニングにおける対数尤度の適切な説明が見つかりませんでした。前もって感謝します

4

1 に答える 1

1

対数尤度の定式化は、多項モデルを使用してドキュメントを記述するのに適しています(各ドキュメントの単語は、多項分布から独立して生成されます)。

最尤クラスター割り当てを取得するには、log p(d | c)を最大化するクラスター割り当てcを取得する必要があります。log p(d | c)は負の数である必要があります。最大値は、ゼロに最も近い数です。

意味のないクラスター割り当てを取得している場合は、多項モデルがデータを適切に記述していないことが原因である可能性があります。したがって、あなたの質問に対する答えは、別の統計モデルを選択するか、別のクラスタリング手法を使用する必要がある可能性が最も高いです。

于 2012-07-21T17:10:56.470 に答える