2

NLTK では、ナイーブ ベイズ分類器を使用して、例から、"bag of words" アプローチを使用して、ユニグラムまたはバイグラム、またはその両方を探すのが非常に単純であることを知っています。まったく異なる 2 つの機能セットを使用して同じことができますか?

たとえば、ユニグラムとトレーニング セットの長さを使用できますか (ここで一度言及されていることは知っています)。しかし、私にとってもっと興味深いのは、ドキュメントに表示されるバイグラムと「バイグラム」、または POS の組み合わせのようなものでしょうか?

これは、基本的な NLTK 分類子の能力を超えていますか?

ありがとうアレックス

4

1 に答える 1

5

NLTK 分類子は、任意のキー値ディクショナリと連携できます。私{"word": True}はテキストの分類に使用しますが{"contains(word)": 1}、同じ効果を得るために使用することもできます。多くの機能を組み合わせることもできるので、{"word": True, "something something": 1, "something else": "a"}. 最も重要なことは、機能が一貫していることです。したがって、常に同じ種類のキーと固定された可能な値のセットを使用できます。数値を使用することはできますが、分類子はそれらについて賢くありません。数値を個別の値として扱うため、99 と 100 は 1 と 100 と同じように異なります。数値をよりスマートな方法で処理したい場合は、次に、scikit-learn 分類器を使用することをお勧めします。

于 2012-07-13T00:00:14.897 に答える