簡単に言えば、私は電子メール以外のテキスト (実際には小さな本) を悪いもの (スパム) と良いもの (ハム) としてフィルタリングしようとしています。私は bogofilter ( http://bogofilter.sourceforge.net/ ) を使用する準備をしていましたが、それは成熟していて効果的であるように見えますが、Python でコードを書いています。これは、(C?) で記述されているスクリプト内から bogofilter を呼び出すためにサブプロセスを使用する必要があることを意味します。必要なことをしているように見えるPythonベースのスパムフィルターに出くわしましたhttps://github.com/jart/redisbayes(ただし、一方と他方の有効性をテストしていません。まだ良いデータセットがありません)。それはすべてうまくいっているように見えるredisキーバックエンドを使用していますが、私はredisに慣れておらず、bogofilterへのサブプロセス呼び出しと比較して利点/欠点が何であるかわかりません(これはBerkleyDBでサポートされています)。redis は実際にはサーバー プロセスであることを理解しているため、スクリプトを開始する前にインスタンスを実行する必要があるようです。それはそれほど問題にはなりませんが、最終的な目標はこれを Uni のサーバーで実行することです。一方、bogofilter には、私の注意を必要とする進行中のバックグラウンド プロセスはありません。
それは 1: パフォーマンス (実を言うと世界の終わりではありません。このデータセットは 100k-400k の短いテキスト行の範囲にあり、約 50 MB の価値があります)、2: 実用性だけでなく、プログラマーの立場(私!)ですが、システム管理者は後で、そして3:モデルの信頼性(bogofilterアルゴリズムは単なるベイジアンモデルではないことを理解しているので、ここで少し検討する予定です...私は思います。機械学習分野の新機能)。
私はただ、最も賢明な行動方針について考え、次の人がこのような少しあいまいなことをしているのを助けることができるようにしたかっただけです. 提案にオープンな低学部生、私を殴ってください!