1

bag of words は私の仕事には単純すぎると思います。単語の位置情報を特徴ベクトルに含めてほしい。たとえば、「良い」は最後から 2 番目などです。

4

1 に答える 1

1

ほとんどの場合、単語のバイグラムまたはトリグラムを機能として使用します。これは、文内の語順情報のほとんどを運びますが、各単語の位置情報よりもまばらではありません。

たとえば、文the cat ate the mouseのトライグラム機能は次のようになります。

<b> <b> the, <b> the cat, the cat ate, cat ate the, ate the mouse, etc.

また、既存の BOW 機能も残すことができます。

さらに、識別モデルを使用すると、既存の機能から独立していなくても、タスクに関連すると思われる機能を追加できます。

明らかに、目標は常に情報とスパース性の適切なバランスを見つけることです...それはデータセットに依存するため、実験する必要があります!

于 2013-02-26T16:16:24.587 に答える