これらすべてについて個別に理解するにはしばらく時間がかかったので、人類の利益のためにここで私の発見を説明させてください.
(対数) オッズ比の使用は、テキスト分類の前に特徴をフィルタリングするための標準的な手法です。これは、特定のクラスと正の相関がある特徴のみを検出するという意味で、「片側メトリック」です [Zheng et al., 2004]。クラス「c」が与えられたときに特徴「t」を見る確率の対数オッズ比として、次のように定義されます。
LOR(t,c) = log [Pr(t|c) / (1 - Pr(t|c))] : [Pr(t|!c) / (1 - Pr(t|!c))]
= log [Pr(t|c) (1 - Pr(t|!c))] / [Pr(t|!c) (1 - Pr(t|c))]
ここでは、'!c' を使用して、クラスが c ではないドキュメントを意味します。
しかし、Pr(t|c) と Pr(t|!c) を実際にどのように計算するのでしょうか?
注意すべき微妙な点の 1 つは、一般に、特徴選択確率は通常、ドキュメント イベント モデルで定義されることです[McCallum & Nigam 1998, Manning et al. 2008]、つまり、Pr(t|c) は、用語 t を1 回以上見る確率です。ドキュメントのクラスが c であるドキュメント内 (つまり、クラス c が与えられた t の存在)。この確率の最尤推定 (MLE) は、t を少なくとも 1 回含むクラス c のドキュメントの割合になります。[技術的には、これは多変量ベルヌーイ イベント モデルとして知られており、整数の単語カウントを使用して Pr(t|c) を計算する単語の多項イベント モデルとは異なります。詳細については、McCallum の論文または Manning IR の教科書を参照してください。 、特にこれが Naive Bayes テキスト分類子にどのように適用されるかについて。]
@yura が指摘したように、ここではまれなイベントが問題になるため、 LOR を効果的に使用するための 1 つの鍵は、これらの条件付き確率推定を平滑化することです (たとえば、Pr(t|!c) の MLE がゼロになる可能性があり、無限の LOR につながる可能性があります)。しかし、どのように滑らかにするのでしょうか?
文献では、Forman は「分母の任意のゼロ カウントに 1 を追加する」ことによって LOR を平滑化すると報告していますが (Forman、2003 年)、Zheng ら (2004 年) は「ELE [Expected Likelihood Estimation] 平滑化」を使用しており、これは通常 0.5 を追加することになります。各カウントに。
確率論と一致する方法で平滑化するために、多変量ベルヌーイ イベント モデルを使用したテキスト分類の標準的な手法に従います。基本的に、各プレゼンス カウントと各不在カウント B の余分な回数を見たと仮定します。したがって、Pr(t|c) の推定値は、#(t,c): t と c を見た回数、#(t,!c): 見た回数で表すことができます。次のように、c なしで t を見ました。
Pr(t|c) = [#(t,c) + B] / [#(t,c) + #(t,!c) + 2B]
= [#(t,c) + B] / [#(c) + 2B]
の場合B = 0
、MLE があります。の場合B = 0.5
、ELE があります。の場合B = 1
、ラプラシアン事前分布があります。これは、ラプラシアン事前分布によって |V| を追加する多項イベント モデルの平滑化とは異なるように見えることに注意してください。分母に [McCallum & Nigam, 1998]
どの以前の作業が最も刺激的であるかに応じて、平滑化値として0.5
またはを選択し、これを上記の方程式に当てはめて、すべての機能をスコアリングします。1
LOR(t,c)
通常は、使用する機能の数 (N など) を決定し、スコアに基づいて最高ランクの N 個の機能を選択します。
マルチクラス設定では、人々は多くの場合、1 対すべての分類器を使用してきたため、各分類器に対して独立して特徴選択を行い、したがって片側メトリックを使用して各ポジティブ クラスを行いました (Forman、2003)。ただし、マルチクラス設定で機能する独自の縮小された機能セットを見つけたい場合は、文献にいくつかの高度なアプローチがあります (例: Chapelle & Keerthi, 2008)。
参考文献:
Zheng, Wu, Srihari, 2004
マッカラム & ニガム 1998
マニング、ラガヴァン & シュッツェ、2008
フォーマン、2003
チャペル & キールティ、2008