NLTK では、ナイーブ ベイズ分類器を使用して、例から、"bag of words" アプローチを使用して、ユニグラムまたはバイグラム、またはその両方を探すのが非常に単純であることを知っています。まったく異なる 2 つの機能セットを使用して同じことができますか?
たとえば、ユニグラムとトレーニング セットの長さを使用できますか (ここで一度言及されていることは知っています)。しかし、私にとってもっと興味深いのは、ドキュメントに表示されるバイグラムと「バイグラム」、または POS の組み合わせのようなものでしょうか?
これは、基本的な NLTK 分類子の能力を超えていますか?
ありがとうアレックス