0

basketballツイートを 2 つのカテゴリ (例:と)に分類しようとしていますnon-basketball。明らかに、データセットは動的です。つまり、ドキュメント コレクションは一連のNドキュメント (つまり、ツイート) に固定されていません。Twitter をクロールしている間、データセットは何度も拡大しています。

適用を試みる必要があるのは、テキスト分類に広く使用されている Naive Bayes 分類器です。ここ に 説明 が あります. しかし、まだ1つの疑問が残っています。

トレーニング セットから開始してモデルを計算できます (語彙はトレーニング セットに含まれる用語で構成されていると述べていVます)。Vここで、存在しない用語 (つまり、トレーニング セットに表示されなかった用語)を含む、未分類の新しいツイートを収集できます。単純ベイズ分類器はまだ適用できますか?

質問を一般化する: 単純ベイズ分類器は、語彙が完全には知られていない場合に適用できますか?

前もって感謝します。

4

2 に答える 2

0

トレーニング セットにないテスト セット内の単語に対して行う最も簡単な方法は、それらを無視することです。

どのクラスが目に見えない/珍しい単語を持つ傾向があるかを測定するなど、より手の込んだことを行うことができます。または、単語整形を使用して、目に見えない単語をより一般的/観察された単語クラスに変換することもできます (たとえば、すべての数字を同じように扱います)。

于 2014-04-25T16:28:16.060 に答える