bag of words は私の仕事には単純すぎると思います。単語の位置情報を特徴ベクトルに含めてほしい。たとえば、「良い」は最後から 2 番目などです。
質問する
234 次
1 に答える
1
ほとんどの場合、単語のバイグラムまたはトリグラムを機能として使用します。これは、文内の語順情報のほとんどを運びますが、各単語の位置情報よりもまばらではありません。
たとえば、文the cat ate the mouse
のトライグラム機能は次のようになります。
<b> <b> the, <b> the cat, the cat ate, cat ate the, ate the mouse, etc.
また、既存の BOW 機能も残すことができます。
さらに、識別モデルを使用すると、既存の機能から独立していなくても、タスクに関連すると思われる機能を追加できます。
明らかに、目標は常に情報とスパース性の適切なバランスを見つけることです...それはデータセットに依存するため、実験する必要があります!
于 2013-02-26T16:16:24.587 に答える