statistics - テキスト上のポイントごとの相互情報

Question

テキスト分類のための点ごとの相互情報量をどのように計算するのか疑問に思っていました。より正確には、ツイートをカテゴリに分類したいと思います。ツイートのデータセット (注釈付き) があり、そのカテゴリに属する単語のカテゴリごとに辞書があります。この情報が与えられた場合、ツイートごとに各カテゴリの PMI を計算して、ツイートをこれらのカテゴリのいずれかに分類するにはどうすればよいでしょうか。

score 38 · Accepted Answer

PMI は、ドキュメント (ツイート) とカテゴリの間ではなく、機能 (あなたの場合は単語) とクラス (カテゴリ) の間の関連性の尺度です。式はウィキペディアで入手できます：

                  P(x, y)
pmi(x ,y) = log ------------ 
                  P(x)P(y)

その式では、単語の出現をモデル化し、クラスの出現をXモデル化する確率変数です。Y特定の単語xと特定のクラスについてy、PMI を使用して特徴が有益かどうかを判断し、それに基づいて特徴選択を行うことができます。多くの場合、機能を少なくすると、分類アルゴリズムのパフォーマンスが向上し、大幅に高速化されます。ただし、分類ステップは別のものです。PMI は、学習アルゴリズムにフィードするより良い機能を選択するのに役立ちます。

編集: 元の投稿で言及しなかったことの 1 つは、PMI が単語の頻度に敏感であるということです。式を次のように書き直してみましょう。

                  P(x, y)             P(x|y)
pmi(x ,y) = log ------------ = log ------------ 
                  P(x)P(y)             P(x)

xとyが完全に相関している場合、 P(x|y) = P(y|x) = 1、そうpmi(x,y) = 1/P(x). 頻度の低いx-es (単語) は、頻度の高い -es よりも高い PMI スコアを持ちます (x両方がと完全に相関している場合でも) y。

statistics - テキスト上のポイントごとの相互情報

1 に答える 1

Related

Reference