algorithm - 無意味なテキストを意味のあるテキストから分離するアルゴリズム

Question

いくつかのプログラムにフィードバック機能を提供しました。残念ながら、ある種のスパム保護を含めるのを忘れていました。これにより、ユーザーは自分のサーバーに何でも送信できるようになりました。すべてのフィードバックは巨大なデータベースに保存されます。

最初は定期的にそれらのフィードバックをチェックしました。使用可能なものを除外し、ゴミを削除しました。問題は、1 日あたり 900 件のフィードバックを受け取ることです。本当に役立つのは 4 ～ 5 個だけです。他のメッセージはほとんど 2 種類の意味不明なものです。

ナンセンス: jfvgasdjkfahs kdlfjhasdf (キーボードで頭をぶつけている人々)
わからない言語

私がこれまでにやったこと：

「asdf」、「qwer」などを含むフィードバックを削除するフィルターをインストールしました... -> 1 日あたり 700 件のみ
不適切な言葉を含むものをすべて削除する単語フィルターをインストールしました -> 1 日あたり 600 件 (聞かないでください - しかし、そこには奇妙な人がたくさんいます)
自分の言語で使用されていない文字を含むメッセージを除外します -> 1 日あたり 400 件

しかし、1日400回は多すぎます。ですから、以前にそのような問題に対処したことがあり、無意味なメッセージを除外するアルゴリズムを知っている人がいるかどうか疑問に思っています。

どんな助けでも本当に感謝します！

score 12 · Accepted Answer

独自の実装ではなく、ベイジアンスパムフィルターの既存の実装を使用するのはどうでしょうか。DSpam で良い結果が得られました

score 12 · Accepted Answer

フィードバックメッセージをアカウントに電子メールで送信し、標準のスパムフィルターを使用するようにシステムをセットアップするという、少し異なるアプローチがあります。それらを gmail 経由で送信し、フィルタリングで攻撃することができます。完璧ではありませんが、実装するのにそれほど労力はかかりません。

score 6 · Accepted Answer

多くのスパムフィルタで使用されているベイジアンアルゴリズムを試すことができます。

より良いベイジアンフィルタリング

ウィキペディアの説明

一部オープンソース

score 6 · Accepted Answer

英語のコメントだけを期待している (または気にしている) 場合は、アップロードされたフィードバックで (辞書に関して) 有効な単語の数を単純に数えてみませんか。数値が一定のしきい値を超えた場合は、フィードバックを受け入れます。そうでない場合は、廃棄してください。この単純なヒューリスティックは、辞書を追加することで他の言語にも拡張できます。

score 5 · Accepted Answer

私のサイトの 1 つで、かなり前にゲストブック機能でスパムの問題が発生しました。私の解決策は、ユーザーに「あなたはスパムロボットですか?」と尋ねる小さなキャプチャのような Q&A フィールドを追加することでした。「いいえ」という言葉を含む回答（「いいえ、私は違います」、「いいえ」、「まったくない」も、楽しみのために...）は、ユーザーが投稿することを許可しました...

キャプチャを使用しないことにした理由は、単純に、ユーザーがサイトにもっと「居心地の良い」雰囲気を求めていたためで、キャプチャは形式的すぎると感じました。これはより個人的なものでした=）

score 3 · Accepted Answer

最も簡単な方法は、各文字の出現回数を数えることです。E は英語で最も一般的な文字であるため、最もよく使用する必要があります。単語と有向グラフの頻度を確認することもできます。英語で最も頻繁に使用されるもののリストを取得するには、ここをご覧ください

score 2 · Accepted Answer

クロード・シャノンとマルコフのモデルを調べてください。これらは、文字の組み合わせが特定の言語ソースに由来する確率を評価するための統計的手法につながります。

プリンストン大学の関連するコースノートをいくつか紹介します。

score 2 · Accepted Answer

Fidelis Assis と私は、Web アプリケーションを含む他のアプリケーションに簡単に適応できるように、スパムフィルターOSBF-Luaを適応させてきました。このスパムフィルタは、TREC スパムコンテストで 3 年連続優勝しました。(アルゴリズムは Fidelis のものであり、私のものではないため、自慢してもかまいません。)

試してみたい場合は、「ほぼベータ版」のコードをに用意しています。

git clone http://www.cs.tufts.edu/~nr/osbf-lua-temp

きちんとしたリリースにはまだほど遠いですが、automake 1.9 をインストールすれば、コードはビルドされるはずです。それを使用してデータベースをクリーンアップし、アプリケーションに統合する方法について、喜んでアドバイスさせていただきます。

score 0 · Accepted Answer

はい、人々が指摘したように、スパムフィルターまたはマルコフモデルを見ることができます。

もっと簡単なのは、各応答のさまざまな単語を数えて、頻度で並べ替えることです。次のような単語が先頭にない場合は、有効なテキストではない可能性があります。

、、、、、および、または... _ _ _

これらは、通常の英語のテキストで最も頻繁に使用される単語です。

score 0 · Accepted Answer

ベイジアンにインスパイアされた分類器をいくつかのスパムフィルターに固定することに関する前述の回答は良い考えです。あなたのアプリケーションでは、長い無意味な単語がたくさん出てくるように見えるので、パーサーでバイグラムとトライグラムをトレーニングするオプションをオンにするのが最善です。そうしないと、ナンセンスな単語の多くが「今まで見たことがない」ものとして扱われ、あなたのケースでは最も有用な解析ではありません。

score 0 · Accepted Answer

コメントを保留状態で保存し、Akismet または Defensio を介して渡し、応答を使用して潜在的なスパムとしてマークするか、アクティブとしてマークします。

http://akismet.com/

http://defensio.com/

個人的にはDefensioのAPIの方が好きですが、どちらも素晴らしくうまく機能します。

algorithm - 無意味なテキストを意味のあるテキストから分離するアルゴリズム

11 に答える 11

Related

Reference