nltk - NLTKで可能性を見つける方法

Question

このリンクを使用して NLTK を理解しようとしています。feature_probdist と show_most_informative_features の値がどのように計算されるのか理解できません。

特に、「最高」という言葉が来ない場合、尤度は 0.077 として計算されます。昔から頑張ってた

score 0 · Accepted Answer

これは、NLTK のソースコードからコードを説明しているものの、そのすべてを表示していないためです。完全なコードは NLTK の Web サイトで入手できます(また、参照した記事にもリンクされています)。これらはメソッド内のフィールドとNLTK 内の NaiveBayesClassifier クラスの (それぞれ) メソッドです。もちろん、このクラスはNaive Bayes classifierを使用しています。これは基本的に、各イベントが独立しているという強力な (単純な) 仮定を使用してBayes Theorumを修正したものです。

feature_probdist= "P(fname=fval|label)、与えられたラベルの特徴値の確率分布。これは、キーが (label,fname) ペアで、値が特徴値の ProbDistIs である辞書として表されます。つまり、P(fname =fval|label) = feature_probdist[label,fname].prob(fval). 与えられた (label,fname) が feature_probdist のキーでない場合、対応する P(fname=fval|label) は 0 であると想定されます。 fval のすべての値に対して。"
most_informative features「この分類子によって使用される「最も有益な」特徴のリストを返します。この関数の目的では、特徴の有益性 (fname,fval) は P(fname=fval|label) の最高値と等しくなります。任意のラベルについて、P(fname=fval|label) の最小値で割った任意のラベル:"
```
max[ P(fname=fval|label1) / P(fname=fval|label2) ]
```

これでも不明な場合は、クラス全体のソースコードを確認してください。この記事の目的は、NLTK が内部でどのように機能するかを詳しく分析することではなく、その使用方法の基本的な概念を示すことです。

1 に答える 1