basketball
ツイートを 2 つのカテゴリ (例:と)に分類しようとしていますnon-basketball
。明らかに、データセットは動的です。つまり、ドキュメント コレクションは一連のN
ドキュメント (つまり、ツイート) に固定されていません。Twitter をクロールしている間、データセットは何度も拡大しています。
適用を試みる必要があるのは、テキスト分類に広く使用されている Naive Bayes 分類器です。ここ に 説明 が あります. しかし、まだ1つの疑問が残っています。
トレーニング セットから開始してモデルを計算できます (語彙はトレーニング セットに含まれる用語で構成されていると述べていV
ます)。V
ここで、存在しない用語 (つまり、トレーニング セットに表示されなかった用語)を含む、未分類の新しいツイートを収集できます。単純ベイズ分類器はまだ適用できますか?
質問を一般化する: 単純ベイズ分類器は、語彙が完全には知られていない場合に適用できますか?
前もって感謝します。