3

NaiveBayesを使用してテキスト分類機械学習の問題を実行しています。私はそれぞれの言葉を特徴として持っています。私はそれを実装することができました、そして私は良い精度を得ています。

単語のタプルを機能として使用することはできますか?

たとえば、政治とスポーツの2つのクラスがあるとします。政府と呼ばれる言葉が両方に現れるかもしれません。ただし、政治ではタプル(政府、民主主義)を持つことができますが、クラススポーツではタプル(政府、スポーツマン)を持つことができます。したがって、政治に関する新しいテキスト記事が登場した場合、タプル(政府、民主主義)の確率はタプル(政府、スポーツマン)よりも確率が高くなります。

私はこれを行うことによって、私はナイーブベイズ問題の独立性の仮定に違反しているので、これを求めています。なぜなら、私は単一の単語も特徴として考えているからです。

また、機能に重みを付けることも考えています。たとえば、3タプルの機能は、4タプルの機能よりも重みが小さくなります。

理論的には、これら2つのアプローチは、単純ベイズ分類器の独立性の仮定を変更しませんか?また、私はまだ言及したアプローチから始めていませんが、これにより精度が向上しますか?精度は上がらないかもしれませんが、同じ精度を得るために必要なトレーニングデータの量は少なくなります。

4

2 に答える 2

5

バイグラムを追加しなくても、実際のドキュメントはすでに独立性の仮定に違反しています。文書にオバマが含まれていることを条件として、大統領が登場する可能性がはるかに高くなります。それにもかかわらず、単純ベイズは、それが与える確率推定が絶望的に​​ずれているとしても、分類でまともな仕事をします。したがって、続けて分類器にさらに複雑な機能を追加し、それらが精度を向上させるかどうかを確認することをお勧めします。

より少ないデータで同じ精度が得られる場合、それは基本的に同じ量のデータでより良い精度が得られることと同じです。

一方、データ量を減らすと、より単純で一般的な機能を使用した方がうまく機能します。少なすぎるデータに多すぎるパラメーターを適合させようとすると、過剰適合する傾向があります。

しかし、肝心なのはそれを試して見ることです。

于 2011-11-30T01:09:40.627 に答える
2

いいえ、理論的な観点からは、独立性の仮定を変更していません。変更された (または新しい) サンプル スペースを作成しているだけです。一般に、サンプル空間でより高い n グラムをイベントとして使用し始めると、データの希薄性が問題になります。タプルを使用すると同じ問題が発生すると思います。おそらく、トレーニング データを減らすのではなく、増やす必要があります。使用するスムージングのタイプについても、もう少し考慮する必要があるでしょう。単純なラプラス スムージングは​​理想的ではない場合があります。

最も重要なポイントは、これだと思います。使用している分類器が何であれ、機能はドメイン (および場合によってはデータセット) に大きく依存します。たとえば、映画のレビューに基づいてテキストのセンチメントを分類する場合、ユニグラムのみを使用するのは直感に反するように思えるかもしれませんが、形容詞のみを使用するよりも優れたパフォーマンスを発揮します。一方、twitter データセットの場合、ユニグラムとバイグラムの組み合わせが適切であることがわかりましたが、より高い n グラムは役に立ちませんでした。そのようなレポートに基づいて (ref. Pang and Lee, Opinion mining and Sentiment Analysis )、より長いタプルを使用しても同様の結果が得られると思います。結局のところ、単語のタプルは単に高次元空間内のポイントであるためです。基本的なアルゴリズムは同じように動作します。

于 2011-11-30T19:04:06.683 に答える