2

String インスタンスを反復するプロセスがあります。各反復では、String インスタンスに対していくつかの操作を行います。最後に、String インスタンスが永続化されます。

ここで、繰り返しごとに、String インスタンスがスパムであるかどうかのチェックを追加したいと考えています。String インスタンスが「アダルト マテリアル」スパムではないことを確認するだけです。

推奨事項はありますか?

4

4 に答える 4

3

これは、業界が常に解決しようとしている非常に難しい問題です。最善の方法は、 Classifier4Jのような既存のソリューションとブラックリスト データソースを組み合わせて使用​​し、スパムを特定することです。

于 2009-07-21T12:31:54.550 に答える
1

独自の分類子などを作成してみることができますが、ネットワークアクセスが保証されている場合は、AkismetとJavaバインディングを使用するだけではどうでしょうか。スパムを見つけるのにかなり良いです。

ネットワーク接続とライセンスを考慮する必要があります。

于 2009-07-21T12:46:46.660 に答える
0

最も簡単な方法は、既知のスパム ワードをチェックすることです。ここでの問題は、さまざまな文脈でさまざまなことを意味する単語を使用すると、誤検知が発生しやすいことです。単語リストを厳選して正当な理由のない単語のみを含めるか、より重みのあるソリューションを選択する必要があります。

于 2009-07-21T12:32:20.197 に答える