0

CMS 用にさらに別のスパム検出を作成したいと考えています。現在、次の 3 つのオプションが表示されます。

  1. 単純な php クラスを使用し、MySQL にトークンを保存する
  2. spamassassin をインストールし、php-connector を使用する
  3. 象使いのような大きなもの

私は MySQL のアプローチが好きではありません。時間の経過とともに非常に大きくなり、システム全体のパフォーマンスが低下するのではないかと心配しているからです。spamassassin のアプローチはより魅力的であるように見えますが、インターネット上のあらゆる場所で、SA のルールはメールとヘッダーに重点が置かれており、これは理想的な方法ではないと書いています。最後に大事なことを言い忘れましたが、私は mahout を認識していますが、それは少し大きすぎて、多くの管理オーバーヘッドが発生するのではないかと心配しています。

Linuxサーバーで実行でき、phpからアクセスできる、小さくて効率的なものはありますか?

4

1 に答える 1

1

最も簡単なアプローチは MySQL のトークンですが、これがどれほどうまく機能するかはわかりません。

テキストをスパン/スパム以外のカテゴリに分類したい場合は、Mahout が適していると思います。これは BigData 用に構築されているため、map/reduce が必要な場合は Hadoop セットアップが必要ですが、おそらく使用できる軽量の代替手段もあります: MahoutのLogisticRegression Algorithm です。

トレーニング済みのモデルをバイナリ形式でハードディスクなどに保存できるModelSerializerクラスがあるため、Hadoop をセットアップする必要はありません。

あなたは試すことができます:

<dependency>
   <groupId>org.apache.mahout</groupId>
   <artifactId>mahout-examples</artifactId>
   <version>0.6</version>
</dependency>

問題のコード例として使用できる次のクラスがあります。

org.apache.mahout.classifier.sgd.TrainNewsGroups

Web 上の Mahout に関するその他のリソースを次に示します

したがって、PHP からこれにアクセスするには、Java で小さな RESTful Web サービスを構築するか、単純にコマンド ライン インターフェイスを使用します。

これが少し役立つことを願っています。

于 2012-02-24T18:40:48.770 に答える