4

私は、意欲的な作家が作品を投稿するウェブサイトを運営しています。当然のことながら、この書き込みの一部は「センシティブ」な性質のものである可能性があります。罵り言葉が多く含まれている場合もあれば、悪意のある場合もあれば、自殺行為の場合もあります。それは標準ではありませんが、存在します。

もちろん、ユーザーが好きなコンテンツを自由に投稿できるようにしたいのですが、問題は広告主にあります。つまり、Google Adsense は、罵詈雑言が多すぎるコンテンツや中傷的なコンテンツについて定期的に警告を送信します。最新のものは、誰かが自分自身を切ることについて書いた記事で、Google はあまりにも「悲劇的」と見なしています。

私は通常、スクリプトを書くことも、テキストを見て、多くの悪口や人種差別的な言葉、反ゲイのレトリックなどを検出することもできました.文章。

したがって、問題は 2 倍です。

  1. 不適切なコンテンツを検出するのに適した PHP クラス/関数/API はありますか?
  2. 自殺または自傷行為のコンテンツを自動的に検出する方法について何か考えはありますか?
4

1 に答える 1

2

悲劇的なコンテンツがどのように見えるかについて、ベイジアン フィルターをトレーニングできます。スパム フィルターに似ていますが、除外したいコンテンツ用です。この PHP ライブラリを使用しましたが、うまく機能します: https://github.com/Dachande663/PHP-Classifier

これは、人間によるモデレーションとフラグ付けのプロセスにうまく適合します。

于 2013-04-29T14:56:35.010 に答える