0

単純ベイズ分類器について理論的な質問があります。次のトレーニング データを使用して分類子をトレーニングしたとします。

class word  count
-----------------
pos   good  1
      sun   1
neu   tree  1
neg   bad   1
      sad   1

私が今、「素晴らしい太陽」を分類すると仮定します。現在、次の 2 つのオプションがあります。

1) 静的なままのトレーニングデータに対して分類します。「良い」と「太陽」の両方が肯定的なカテゴリに由来することを意味し、この文字列を肯定的に分類します。分類後、トレーニング テーブルは変更されません。したがって、すべての文字列は、トレーニング データの静的セットに対して分類されます。

2) 文字列を分類しますが、下の表のようにトレーニング データを更新します。したがって、次の文字列は、これよりも「高度な」トレーニング データのセットに対して分類されます。(自動) 分類の終わりまでに、単純なトレーニング セットとして開始されたテーブルは、多くの単語で拡張され (および更新された単語数)、サイズが大きくなります。

class word  count
-----------------
pos   good  2
      sun   2
      great 1
neu   tree  1
neg   bad   1
      sad   1

NMB の実装では、最初の方法を使用しましたが、後者を使用する必要があったと思い直しています。教えてください:-)

4

1 に答える 1

1

あなたが実装した方法は、確かに分類子を構築するための一般的で受け入れられている方法です(ベイジアンだけではありません)。

「ラベル付けされていない」データ、つまり根拠のないデータを使用して分類器を更新することは、「半教師あり学習」と呼ばれることもある、より高度で複雑な手法です。このクラスのアルゴリズムを使用することは、特定のタスクに適している場合とそうでない場合があります。通常は試行錯誤の問題です。

ラベルのないデータをモデルに組み込むことに決めた場合は、 EMなどの一般的なアルゴリズムの 1 つを試す必要があります。

于 2012-09-10T12:29:52.487 に答える