python - Python 用ベイジアンスパムフィルタリングライブラリ

Question

Bayesian Spam Filtering を行う Python ライブラリを探しています。SpamBayes と OpenBayes を見ましたが、どちらもメンテナンスされていないようです (間違っているかもしれません)。

ベイジアンスパムフィルタリングを実装する優れた Python (または Clojure、Common Lisp、さらには Ruby) ライブラリを提案できる人はいますか?

前もって感謝します。

明確化: 私は実際に探しているのはベイジアンスパム分類器であり、必ずしもスパムフィルターではありません。いくつかのデータを使用してトレーニングし、後で特定のデータがスパムであるかどうかを教えてください。混乱して申し訳ありません。

score 11 · Accepted Answer

スパムフィルタリングまたはベイジアン分類が必要ですか?

ベイジアン分類には、多数の Python モジュールがあります。私は最近、非常に印象的なオレンジをレビューしていました. R には多数のベイジアンモジュールがあります。Rpyを使用して R にフックできます。

score 11 · Accepted Answer

牧師を試してみてください。これは、スパムフィルタリングモジュールです。

score 9 · Accepted Answer

RedisBayes は私には良さそうです:

http://pypi.python.org/pypi/redisbayes/0.1.3

私の経験では、Redis はスタックへのすばらしい追加機能であり、MySQL、PostgreSQL、またはその他の RDBMS と比較して非常に速い速度でデータを処理するのに役立ちます。

import redis, redisbayes
rb = redisbayes.RedisBayes(redis=redis.Redis())

rb.train('good', 'sunshine drugs love sex lobster sloth')
rb.train('bad', 'fear death horror government zombie god')

assert rb.classify('sloths are so cute i love them') == 'good'
assert rb.classify('i fear god and love the government') == 'bad'

print rb.score('i fear god and love the government')

rb.untrain('good', 'sunshine drugs love sex lobster sloth')
rb.untrain('bad', 'fear death horror government zombie god')

それが少し役立つことを願っています。

score 3 · Accepted Answer

bogofilterを使用してみてください。Pythonからどのように使用できるかわかりません。Bogofilter は多くのメールシステムと統合されているため、比較的簡単に接続できます。

score 3 · Accepted Answer

SpamBayes は保守されており、成熟しています (つまり、常に新しいリリースがなくても動作します)。それはあなたが望むことを簡単にします。SpamBayes は大ざっぱなベイジアン (カイ 2 乗結合を使用) に過ぎないことに注意してください。ただし、おそらく、特定のベイジアンではなく、統計的なトークンベースの分類を行っていると思われます。

score 1 · Accepted Answer

Python自然言語ツールキット（nltk）のモジュールは、単純ベイズ分類を行いますnltk.classify.naivebayes。

免責事項：私はベイズ分類について、ナイーブまたは世俗的なものをすべて知っています。

python - Python 用ベイジアン スパム フィルタリング ライブラリ

6 に答える 6

Related

Reference

python - Python 用ベイジアンスパムフィルタリングライブラリ