machine-learning - 機械学習の機能選択

Question

私はウェブサイトを分類しています。タスクの 1 つは、ポルノを除外することです。私が使用しているのは、bag-of-words を使用したバイナリ SVM 分類器です。BoW に含めるべき単語について質問があります。ポルノ関連の単語 (ポルノ Web サイトでよく見られる単語) だけにするか、ポルノ Web サイトではめったに見られないが、他の Web サイトでは頻繁に見られる単語も含める必要があります。よく（たとえば、「数学」、「工学」、「ギター」、「誕生」など）？

私が直面している問題は、医療および家族関連のサイトでの誤検知です。ポルノ関連の単語だけを探すと、そのようなサイトのベクトルは非常にまばらになります。「セックス」のような言葉はかなり頻繁に出てきますが、まったく無害な文脈で使われています。

ポルノ以外の単語も含める必要がありますか? または、誤検知を解決する他の方法を検討する必要がありますか? 提案は大歓迎です。

score 2 · Accepted Answer

トピックモデリング (Latent Dirichlet Allocation http://en.wikipedia.org/wiki/Latent_Dirichlet_allocationを試してください) は、これをうまく処理できます。

ドキュメントのトピックを機能として分類器にフィードすると、発生している問題を回避するのに役立ちます。

score 2 · Accepted Answer

別の可能なアプローチは、ポルノサイト専用の言語モデルを作成することです。n グラム (3 グラムなど) があれば、特定の単語「セックス」がポルノに関連しているのか、他のドメインに関連しているのかを簡単に識別できるはずです。

理論的な推測: このような言語モデルがあれば、分類器も必要ありません。（困惑、n-gramの可能性は決定するのに十分なはずです...）

score 1 · Accepted Answer

すべての単語を含めて、どれが有用かを SVM に判断させます。分類器はポジティブとネガティブを区別できる必要があり、ネガティブはターゲットドメイン (ポルノ) にない単語で特徴付けることもできます。例を分割すると、より明確になる可能性があります。

できれば、単一の単語だけでなく、n グラム (たとえば、特定の頻度を超える 2 グラムまたは 3 グラム) も追加の特徴として使用します (これは、医学の誤検知に関する問題に役立つはずです)。TF-IDF 重み付けを使用している場合は、N グラムもアプローチに適合します。

score 1 · Accepted Answer

できるだけ多くの単語を含める必要があります。理想的には辞書全体です。分類子は、定義したクラスに Web サイトがどの程度類似しているかを判断することで、Web サイトを識別できます。どちらか一方だけでなく、両方のクラスを識別する手段を与える必要があります。写真で猫を特定するように求められたが、訓練するために猫を見せられただけだと考えてください. 特定の写真については、猫 (または、あなたが見たどの猫) にもあまり似ていないと言うことはできるかもしれませんが、その写真がまだ十分に猫らしさを持っているかどうかを判断する方法はありません。猫。

machine-learning - 機械学習の機能選択

4 に答える 4

Related

Reference