1

私は、議事録からスピーチにトピック分類を割り当てようとしているテキスト分類プロジェクトに取り組んでいます。

議会法案プロジェクト ( http://congressionalbills.org/ ) のトピック コードを使用して、特定の法案に言及している演説をその法案のトピックに属するものとしてタグ付けしました。これをモデルの「トレーニング セット」として使用しています。

私は「普通の」ナイーブ ベイズ分類器で十分に機能していますが、演説を行っている国会議員に関する情報を組み込むことで、アルゴリズムの精度を高めることができると常に感じています (たとえば、特定の議員は演説する可能性がはるかに高い)。他の人よりも外交政策について話してください)。

1 つの可能性は、NB 分類器の事前確率 (通常、トレーニング セット内の特定の分類を持つドキュメントの割合として定義される) を、話者が観察した以前のスピーチに置き換えることです。

これは追求する価値がありますか?これと同じ種類のロジックに従った既存のアプローチはありますか? 潜在的ディリクレ配分モデルから生まれる「著者トピック モデル」には少し慣れていますが、NB モデルのシンプルさが気に入っています。

4

1 に答える 1

0

何も変更する必要はありません。この情報を に追加するNaive Bayesだけで問題なく動作します。

そして、コメントで以前に述べたように - 事前確率を変更しないでください - 事前確率はでありP(class)、これは実際の機能とは何の関係もありません。

作成者に対応する別の機能、たとえば「author:AUTHOR」を計算に追加し、通常どおり Naive Bayes をトレーニングします。P(class|author:AUTHOR)それぞれclassを計算しAUTHOR、後で分類プロセスで使用します。現在の表現が単語のバッグである場合、「作成者: 作成者」という形式の「人工」単語をそれに追加するだけで十分です。

もう1つのオプションは、各AUTHORごとに独立した分類子をトレーニングすることです。これは、たとえば、「自然」について話すときにのみ「環境」という単語を多く使用する人もいれば、この単語を追加するのが好きな人など、特定のタイプのスピーチをキャプチャします。各スピーチで「ああ、私たちのローカル環境では...」。独立した NB は、この種の現象を捉えます。

于 2013-08-23T05:56:49.953 に答える