NaiveBayesを使用してテキスト分類機械学習の問題を実行しています。私はそれぞれの言葉を特徴として持っています。私はそれを実装することができました、そして私は良い精度を得ています。
単語のタプルを機能として使用することはできますか?
たとえば、政治とスポーツの2つのクラスがあるとします。政府と呼ばれる言葉が両方に現れるかもしれません。ただし、政治ではタプル(政府、民主主義)を持つことができますが、クラススポーツではタプル(政府、スポーツマン)を持つことができます。したがって、政治に関する新しいテキスト記事が登場した場合、タプル(政府、民主主義)の確率はタプル(政府、スポーツマン)よりも確率が高くなります。
私はこれを行うことによって、私はナイーブベイズ問題の独立性の仮定に違反しているので、これを求めています。なぜなら、私は単一の単語も特徴として考えているからです。
また、機能に重みを付けることも考えています。たとえば、3タプルの機能は、4タプルの機能よりも重みが小さくなります。
理論的には、これら2つのアプローチは、単純ベイズ分類器の独立性の仮定を変更しませんか?また、私はまだ言及したアプローチから始めていませんが、これにより精度が向上しますか?精度は上がらないかもしれませんが、同じ精度を得るために必要なトレーニングデータの量は少なくなります。