NLTK と Scikits の両方で Naive Bayes の 2 つの実装のパフォーマンスを比較しました (Bernoulli バージョン、各クラスにまったく同じ量のトレーニング例を使用しているため、クラスの事前確率は問題ではありません)。・クラスの問題。X 軸はトレーニング データセットのサイズ (実際の値は忘れてください)、Y は精度です。これが私が得たものです。
このパフォーマンスの違いの理由は何ですか?
NLTK と Scikits の両方で Naive Bayes の 2 つの実装のパフォーマンスを比較しました (Bernoulli バージョン、各クラスにまったく同じ量のトレーニング例を使用しているため、クラスの事前確率は問題ではありません)。・クラスの問題。X 軸はトレーニング データセットのサイズ (実際の値は忘れてください)、Y は精度です。これが私が得たものです。
このパフォーマンスの違いの理由は何ですか?
NLTKはBernoulliNaiveBayesを実装していません。代わりに、NaiveBayesClassifier
ブール機能とともに多項NB決定ルールを使用します。
多項NBパーツとベルヌーイNBパーツのこの組み合わせが実際に推奨されることもありますが(たとえば、感情分析のためにジュラフスキーとマニングによって)、通常は両方の世界で最悪の結果であり、間違いの結果である可能性があります。