twitter - Naive Bayes Classifier は語彙全体を知る必要がありますか?

Question

basketballツイートを 2 つのカテゴリ (例:と)に分類しようとしていますnon-basketball。明らかに、データセットは動的です。つまり、ドキュメントコレクションは一連のNドキュメント (つまり、ツイート) に固定されていません。Twitter をクロールしている間、データセットは何度も拡大しています。

適用を試みる必要があるのは、テキスト分類に広く使用されている Naive Bayes 分類器です。ここに説明があります. しかし、まだ1つの疑問が残っています。

トレーニングセットから開始してモデルを計算できます (語彙はトレーニングセットに含まれる用語で構成されていると述べていVます)。Vここで、存在しない用語 (つまり、トレーニングセットに表示されなかった用語)を含む、未分類の新しいツイートを収集できます。単純ベイズ分類器はまだ適用できますか?

質問を一般化する: 単純ベイズ分類器は、語彙が完全には知られていない場合に適用できますか?

前もって感謝します。

score 0 · Accepted Answer

トレーニングセットにないテストセット内の単語に対して行う最も簡単な方法は、それらを無視することです。

どのクラスが目に見えない/珍しい単語を持つ傾向があるかを測定するなど、より手の込んだことを行うことができます。または、単語整形を使用して、目に見えない単語をより一般的/観察された単語クラスに変換することもできます (たとえば、すべての数字を同じように扱います)。

twitter - Naive Bayes Classifier は語彙全体を知る必要がありますか?

2 に答える 2

Related

Reference