私はウェブサイトを分類しています。タスクの 1 つは、ポルノを除外することです。私が使用しているのは、bag-of-words を使用したバイナリ SVM 分類器です。BoW に含めるべき単語について質問があります。ポルノ関連の単語 (ポルノ Web サイトでよく見られる単語) だけにするか、ポルノ Web サイトではめったに見られないが、他の Web サイトでは頻繁に見られる単語も含める必要があります。よく(たとえば、「数学」、「工学」、「ギター」、「誕生」など)?
私が直面している問題は、医療および家族関連のサイトでの誤検知です。ポルノ関連の単語だけを探すと、そのようなサイトのベクトルは非常にまばらになります。「セックス」のような言葉はかなり頻繁に出てきますが、まったく無害な文脈で使われています。
ポルノ以外の単語も含める必要がありますか? または、誤検知を解決する他の方法を検討する必要がありますか? 提案は大歓迎です。