2

ドキュメント分類で使用される特定のNaiveBayseアルゴリズムについて質問があります。以下は私が理解していることです:

  1. 既知の分類ごとに、トレーニングセット内の各単語の確率を構築します
  2. ドキュメントが与えられると、それに含まれるすべての単語を削除します
  3. 分類に存在する単語の確率を掛け合わせます
  4. 分類ごとに(3)を実行します
  5. (4)の結果を比較し、後部が最も高い分類を選択します

私が混乱しているのは、トレーニングセットが与えられた各単語の確率を計算するときの部分です。たとえば、「バナナ」という単語は、分類Aの100のドキュメントに表示され、Aには合計200のドキュメントがあり、合計1000の単語がAに表示されます。「バナナ」が分類Aに表示される確率を取得するには100/200=0.5または100/1000=0.1を使用しますか?

4

1 に答える 1

3

単語の合計回数ではなく、単語が出現するドキュメントの数を数えると、モデルがより正確に分類されると思います。言い換えると

「MentionsFruit」の分類:

"私はバナナが好き。"

重さはそれ以上または以下でなければなりません

「バナナ!バナナ!バナナ!私はそれらが好きです。」

したがって、あなたの質問に対する答えは100/200=0.5になります。

ウィキペディアの文書分類の説明も私の結論を裏付けています

次に、クラスCが与えられた場合、特定のドキュメントDにすべての単語Wが含まれる確率は次のようになります。

http://en.wikipedia.org/wiki/Naive_Bayes_classifier

言い換えると、ドキュメント分類アルゴリズムWikipediaは、特定のドキュメントに含まれる分類単語のリストの数をテストします。

ちなみに、より高度な分類アルゴリズムでは、各単語だけでなく、N単語のシーケンスを調べます。ここで、Nは、計算に使用するCPUリソースの量に基づいて設定できます。

アップデート

私の直接の経験は短い文書に基づいています。@BenAllisonがコメントで指摘している調査を強調したいと思います。これは、私の回答が長いドキュメントでは無効であることを示唆しています。具体的には

1つの弱点は、用語の有無のみを考慮することにより、BIMが用語の頻度に固有の情報を無視することです。たとえば、すべてが等しい場合、単語の1回の出現がドキュメントがクラスに属することの良い手がかりである場合、5回の出現はさらに予測可能であると予想されます。

関連する問題は、ドキュメントの長さに関するものです。ドキュメントが長くなると、使用される個別の単語の数、つまりBIMで1に等しいx(j)の値の数が一般的に増加します。

http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.46.1529

于 2012-11-13T20:26:17.277 に答える