1

私は PHP を初めて使用し、ソーシャル Web サイトにスパム サイトを入力しようとする人々を捕まえるシステムを開発しようとしています。(ピンタレスト、ブログ サイトなどでのコメントや投稿など)

私が使用している方法は次のとおりです。ユーザーが投稿/コメント フィールドにテキストを入力すると、すべてのテキストを調べて、その中のすべての URL を抽出します。それで:

  1. Web ページのタイトルとその Web ページの本文を比較して、本文に含まれるタイトル フィールドの単語数を確認します。次に、ランクを付けます。
  2. Web ページの本文に対してメタ タグを比較し、Web ページの本文にメタ タグが含まれているかどうかを確認します。次に、ランクを付けます。
  3. アンカー テキストをその Web ページの本文と比較する
  4. URL のキーワードと Web ページの本文の比較
  5. Web ページにポルノ ワードが含まれていないかどうかを確認しています。
  6. URL をオンライン データベースと比較して、ブラックリストに登録されているサイトを確認します。

ユーザーに指定された URL がスパムかマーケティング サイトかを判断するために使用できる他の方法があれば教えてください。どんな助けでも大歓迎です。

4

1 に答える 1

2

この質問は、実際にはphp固有のものではないようです。とにかく...

ここにいくつかのアイデアを含む同様の投稿があります

テキスト文字列内の (いたずらまたはナイス) URL またはリンクの検出

また、このテーマに関する科学論文はおそらく一見の価値があるはずです。ここから始めましょう。

http://dl.acm.org/citation.cfm?id=2093493&dl=ACM&coll=DL&CFID=337935760&CFTOKEN=13189143

于 2013-06-11T06:03:09.967 に答える