ドキュメントとクラスター間の類似性を比較するために、次の対数尤度式を使用しています。log p(d | c)= sum(c(w、d)* log p(w | c)); c(w、d)はドキュメント内の単語の頻度であり、p(w | c)は単語wがクラスターcによって生成される可能性です。
問題は、この類似性に基づいて、ドキュメントが間違ったクラスターに割り当てられることが多いことです。log p(d | c)が最も高いクラスターにドキュメントを割り当てると(通常は負の値であるため–log p(d | c))、ドキュメントですが、クラスター内のこれらの単語の確率は低いです。log p(d | c)が最も低いクラスターにドキュメントを割り当てると、1ワードでのみドキュメントと交差するクラスターになります。誰かがloglikelihoodを正しく使用する方法を教えてもらえますか?この関数をJavaで実装しようとしています。私はすでにグーグルの学者を調べましたが、テキストマイニングにおける対数尤度の適切な説明が見つかりませんでした。前もって感謝します