約 3000 語の大きな文書を使用して 2 つの単語間の MI を計算する場合、文書内であまり繰り返されない最初の単語の確率を計算すると、2 番目の単語については非常に低く、同じです。この低い値は、同時確率に影響を与えますp(x) * P(y)
。リードは、相互情報量の値がゼロまたは NaN になります。どうすればこれを回避できますか?
質問する
420 次
1 に答える
-1
あなたの最善の策は、おそらく負の対数確率を使用することです。これは、アンダーフローを回避するのに役立ちます。p(x) * p(y)
は と同じであることを忘れないでください-log(p(x)) + -log(p(y))
。詳細については、友好的な近所のウィキペディアを参照してください。
于 2013-04-09T16:44:24.590 に答える