text-mining - 珍しい単語の相互情報

Question

約 3000 語の大きな文書を使用して 2 つの単語間の MI を計算する場合、文書内であまり繰り返されない最初の単語の確率を計算すると、2 番目の単語については非常に低く、同じです。この低い値は、同時確率に影響を与えますp(x) * P(y)。リードは、相互情報量の値がゼロまたは NaN になります。どうすればこれを回避できますか?

score -1 · Accepted Answer

あなたの最善の策は、おそらく負の対数確率を使用することです。これは、アンダーフローを回避するのに役立ちます。p(x) * p(y)はと同じであることを忘れないでください-log(p(x)) + -log(p(y))。詳細については、友好的な近所のウィキペディアを参照してください。

text-mining - 珍しい単語の相互情報

1 に答える 1

Related

Reference