2

ドキュメント (単語で構成されている) を 3 つのクラス (ポジティブ、ネガティブ、未知/中立) に分類したい。ドキュメントの単語のサブセットが特徴になります。

これまで、機能セレクターとして情報ゲインとカイ 2 乗統計を使用して、単純ベイズ分類器をプログラムしてきました。ここで、オッズ比を機能セレクターとして使用するとどうなるかを確認したいと思います。

私の問題は、オッズ比を実装する方法がわからないことです。するべきか:

1) すべての単語 w、すべてのクラスのオッズ比を計算します。たとえば、w の場合:

   Prob of word as positive Pw,p = #positive docs with w/#docs
   Prob of word as negative Pw,n = #negative docs with w/#docs
   Prob of word as unknown Pw,u = #unknown docs with w/#docs

   OR(Wi,P) = log( Pw,p*(1-Pw,p) / (Pw,n + Pw,u)*(1-(Pw,n + Pw,u)) ) 
   OR(Wi,N) ...
   OR(Wi,U) ...

2) その単語を特徴として選択するかどうかは、どのように決定すればよいですか?

前もって感謝します...

4

2 に答える 2

3

これらすべてについて個別に理解するにはしばらく時間がかかったので、人類の利益のためにここで私の発見を説明させてください.

(対数) オッズ比の使用は、テキスト分類の前に特徴をフィルタリングするための標準的な手法です。これは、特定のクラスと正の相関がある特徴のみを検出するという意味で、「片側メトリック」です [Zheng et al., 2004]。クラス「c」が与えられたときに特徴「t」を見る確率の対数オッズ比として、次のように定義されます。

LOR(t,c) = log [Pr(t|c) / (1 - Pr(t|c))] : [Pr(t|!c) / (1 - Pr(t|!c))]
= log [Pr(t|c) (1 - Pr(t|!c))] / [Pr(t|!c) (1 - Pr(t|c))]

ここでは、'!c' を使用して、クラスが c ではないドキュメントを意味します。

しかし、Pr(t|c) と Pr(t|!c) を実際にどのように計算するのでしょうか?

注意すべき微妙な点の 1 つは、一般に、特徴選択確率は通常、ドキュメント イベント モデルで定義されることです[McCallum & Nigam 1998, Manning et al. 2008]、つまり、Pr(t|c) は、用語 t を1 回以上見る確率です。ドキュメントのクラスが c であるドキュメント内 (つまり、クラス c が与えられた t の存在)。この確率の最尤推定 (MLE) は、t を少なくとも 1 回含むクラス c のドキュメントの割合になります。[技術的には、これは多変量ベルヌーイ イベント モデルとして知られており、整数の単語カウントを使用して Pr(t|c) を計算する単語の多項イベント モデルとは異なります。詳細については、McCallum の論文または Manning IR の教科書を参照してください。 、特にこれが Naive Bayes テキスト分類子にどのように適用されるかについて。]

@yura が指摘したように、ここではまれなイベントが問題になるため、 LOR を効果的に使用するための 1 つの鍵は、これらの条件付き確率推定を平滑化することです (たとえば、Pr(t|!c) の MLE がゼロになる可能性があり、無限の LOR につながる可能性があります)。しかし、どのように滑らかにするのでしょうか?

文献では、Forman は「分母の任意のゼロ カウントに 1 を追加する」ことによって LOR を平滑化すると報告していますが (Forman、2003 年)、Zheng ら (2004 年) は「ELE [Expected Likelihood Estimation] 平滑化」を使用しており、これは通常 0.5 を追加することになります。各カウントに。

確率論と一致する方法で平滑化するために、多変量ベルヌーイ イベント モデルを使用したテキスト分類の標準的な手法に従います。基本的に、各プレゼンス カウントと各不在カウント B の余分な回数を見たと仮定します。したがって、Pr(t|c) の推定値は、#(t,c): t と c を見た回数、#(t,!c): 見た回数で表すことができます。次のように、c なしで t を見ました。

Pr(t|c) = [#(t,c) + B] / [#(t,c) + #(t,!c) + 2B]
 = [#(t,c) + B] / [#(c) + 2B]

の場合B = 0、MLE があります。の場合B = 0.5、ELE があります。の場合B = 1、ラプラシアン事前分布があります。これは、ラプラシアン事前分布によって |V| を追加する多項イベント モデルの平滑化とは異なるように見えることに注意してください。分母に [McCallum & Nigam, 1998]

どの以前の作業が最も刺激的であるかに応じて、平滑化値として0.5またはを選択し、これを上記の方程式に当てはめて、すべての機能をスコアリングします。1LOR(t,c)

通常は、使用する機能の数 (N など) を決定し、スコアに基づいて最高ランクの N 個の機能を選択します。

マルチクラス設定では、人々は多くの場合、1 対すべての分類器を使用してきたため、各分類器に対して独立して特徴選択を行い、したがって片側メトリックを使用して各ポジティブ クラスを行いました (Forman、2003)。ただし、マルチクラス設定で機能する独自の縮小された機能セットを見つけたい場合は、文献にいくつかの高度なアプローチがあります (例: Chapelle & Keerthi, 2008)。

参考文献:

Zheng, Wu, Srihari, 2004

マッカラム & ニガム 1998

マニング、ラガヴァン & シュッツェ、2008

フォーマン、2003

チャペル & キールティ、2008

于 2015-12-31T19:49:54.100 に答える
2

奇数比は、機能が存在する場合に何が起こるかを示すだけで、機能がない場合は何も示さないため、機能選択の良い尺度ではありません。したがって、まれな機能では機能せず、ほとんどすべての機能がまれであるため、ほとんどすべての機能では機能しません。0.0001 に存在するクラスが正であるという 100% の信頼度を持つ特徴の例は、分類には役に立ちません。したがって、奇数比を引き続き使用する場合は、5% のケースに存在する機能のように、機能の頻度にしきい値を追加します。しかし、私はより良いアプローチをお勧めします - これらの問題を自動的に解決するカイまたは情報ゲイン指標を使用してください。

于 2011-10-10T13:41:16.697 に答える