私は、議事録からスピーチにトピック分類を割り当てようとしているテキスト分類プロジェクトに取り組んでいます。
議会法案プロジェクト ( http://congressionalbills.org/ ) のトピック コードを使用して、特定の法案に言及している演説をその法案のトピックに属するものとしてタグ付けしました。これをモデルの「トレーニング セット」として使用しています。
私は「普通の」ナイーブ ベイズ分類器で十分に機能していますが、演説を行っている国会議員に関する情報を組み込むことで、アルゴリズムの精度を高めることができると常に感じています (たとえば、特定の議員は演説する可能性がはるかに高い)。他の人よりも外交政策について話してください)。
1 つの可能性は、NB 分類器の事前確率 (通常、トレーニング セット内の特定の分類を持つドキュメントの割合として定義される) を、話者が観察した以前のスピーチに置き換えることです。
これは追求する価値がありますか?これと同じ種類のロジックに従った既存のアプローチはありますか? 潜在的ディリクレ配分モデルから生まれる「著者トピック モデル」には少し慣れていますが、NB モデルのシンプルさが気に入っています。