RSSチャネルを介して特定のウィキペディアの記事のニュースを監視している場合、編集のほとんどがスパム、破壊行為、マイナーな編集などであるため、情報をフィルタリングせずに迷惑になります。
私のアプローチは、フィルターを作成することです。寄稿者のニックネームを含まないが、寄稿者のIPアドレスによってのみ識別されるすべての編集を削除することにしました。これは、そのような編集のほとんどがスパムであるためです(ただし、いくつかの良い寄稿があります)。これは正規表現で簡単に行えました。また、下品な表現やその他の一般的なスパムキーワードを含む編集も削除しました。
正規表現、AI、テキスト処理技術などを使用したアルゴリズムまたはヒューリスティックを利用するより良いアプローチを知っていますか?このアプローチは、悪い投稿(マイナーな編集または破壊行為)を検出でき、良い/悪い貢献が何であるかを段階的に学習し、そのデータベースを更新できる必要があります。
ありがとうございました