ベイジアン フィルターを使用してフォーラム メンバーが投稿を分類できるようにした人はいますか? ベイジアン フィルターは、電子メール スパムの検出に適しているようです。ベイジアン フィルターの実装は、ユーザーのフォーラム投稿をフィルター処理するための実行可能なアプローチですか?
2 に答える
ベイジアン分類器またはその他の自動分類システムを介して興味深い/良いフォーラム投稿を分類しようとすることの難しさは、投稿の単語および/または単語構造とそれらの相対的な価値または有用性との間に相関関係がない可能性が高いことです。
SPAMフィルタは主に、単語の選択と構造が全体的に体系的に異常であるために機能します。スパマーは特定の製品やサービスなどを宣伝しようとしています。スパマーは実行の難しさを増やそうとすることができますが、学習できる合理的な相関関係とパターンがあります。さまざまな手法で。
このような単語/構造パターンは、良いフォーラム投稿と悪いフォーラム投稿に存在する可能性は低いです。ただし、役立つ可能性のある問題を再構築する別の方法があります。
- ユーザーが投稿を良いか悪いかに分類できるようにするか、説明したとおりにランク付けできるようにします。
- ベイズ分類器またはその他の統計的推論方法を使用して、コミュニティ全体のランキング動作と最も高い相関関係があるフォーラムユーザー、つまり、コミュニティ全体がどのように表示されるかを最もよく予測できるユーザーを特定します。コンテンツ。
- ステップ2で特定された優れた予測ユーザーのプールからのフォーラム投稿ランキングを使用して、フォーラム投稿をフィルタリングします。これには、1人以上のそのようなユーザーが実際にある時点で新しいコンテンツをランク付けする必要があるため、このプールはある程度のサイズであり、そのようなフィルタリングシステムが役立つように通常のユーザーを含める必要があります。
- この分類システムは、ユーザーのコミュニティがおそらく動的であり、関心が変化しているなどの理由で、定期的な再構築が必要になります。
私が提案したアプローチが実際にあなたの問題にどれだけうまく機能するかは、フォーラムの性質、ユーザーがコンテンツをランク付けする意欲、投稿されたコンテンツの価値をどのように認識するかについての共通点に大きく依存します。また、ユーザーコミュニティの全体的なサイズが要因になる可能性があります。サイズが小さすぎると、処理するのに十分なデータがない可能性があります。大きすぎると、ランキングデータに対して分類子推論メソッドを実行する際の計算スケーリングの問題が発生する可能性があります。
協調フィルタリングの方が効果的ではないでしょうか?