2

約 3000 語の大きな文書を使用して 2 つの単語間の MI を計算する場合、文書内であまり繰り返されない最初の単語の確率を計算すると、2 番目の単語については非常に低く、同じです。この低い値は、同時確率に影響を与えますp(x) * P(y)。リードは、相互情報量の値がゼロまたは NaN になります。どうすればこれを回避できますか?

4

1 に答える 1

-1

あなたの最善の策は、おそらく負の対数確率を使用することです。これは、アンダーフローを回避するのに役立ちます。p(x) * p(y)は と同じであることを忘れないでください-log(p(x)) + -log(p(y))。詳細については、友好的な近所のウィキペディアを参照してください

于 2013-04-09T16:44:24.590 に答える