私はソーシャル メディア監視システムに取り組んでいます。自分でウェブをクロールするのではなく、Spinn3r などのアグリゲーターからフィードを取得します。ほとんどの場合、ポルノサイトへのリンクのページにすぎない「ブログ」はフィルタリングされますが、上流のプロバイダーが変更を加えるのを待つよりも短い時間枠でトレーニングできる社内のものを望んでいます.
私は Spamassassin を調べましたが、電子メールを扱うのであれば、私たちの目的には理想的です。テキストの本文だけを取り、作業頻度、リンク数、非表示の背景テキストなどに基づいて品質スコアを与えることができるライブラリはありますか?
理想的には、Java で何かを探していますが、何もない場合は、クライアント サーバーまたは jruby または jython ライブラリを埋め込むことで問題ありません。
最終的には自分で構築する必要があると思いますが、試してみる価値は常にあります。