Naive Bayes Text Classifier (Java) を設計および実装しました。私は主にツイートを 20 のクラスに分類するために使用しています。ドキュメントが私が使用するクラスに属する確率を判断するには
foreach(class)
{
Probability = (P(bag of words occurring for class) * P(class)) / P(bag of words occurring globally)
}
単語の袋が本当にどのクラスにも属してはならないかどうかを判断する最良の方法は何ですか? P(クラスで発生する単語のバッグ)の最小しきい値を送信でき、すべてのクラスがそのしきい値を下回っている場合は、ドキュメントを未分類として分類できることを認識していますが、これにより、この分類子が機密になるのを防ぐことができます.
未分類のクラスを作成し、分類できないと思われるドキュメントでそれをトレーニングするオプションはありますか?
ありがとう、
マーク
- 編集 - -
私はちょうど考えていました - P(グローバルに発生する単語の袋)*(ドキュメント内の単語数) の最大しきい値を設定できます。これは、主に一般的な単語 (通常はフィルターで除外したいツイート) で構成されるドキュメントを意味します。"はい、あなたに賛成です"。除外されます。- これについてのご意見もお待ちしております。
または、標準偏差を見つけて、それが低い場合は未分類にする必要があると判断する必要がありますか?