python - 1 つの分類子で NLTK 複数の機能セット?

Question

NLTK では、ナイーブベイズ分類器を使用して、例から、"bag of words" アプローチを使用して、ユニグラムまたはバイグラム、またはその両方を探すのが非常に単純であることを知っています。まったく異なる 2 つの機能セットを使用して同じことができますか?

たとえば、ユニグラムとトレーニングセットの長さを使用できますか (ここで一度言及されていることは知っています)。しかし、私にとってもっと興味深いのは、ドキュメントに表示されるバイグラムと「バイグラム」、または POS の組み合わせのようなものでしょうか?

これは、基本的な NLTK 分類子の能力を超えていますか?

ありがとうアレックス

score 5 · Accepted Answer

NLTK 分類子は、任意のキー値ディクショナリと連携できます。私{"word": True}はテキストの分類に使用しますが{"contains(word)": 1}、同じ効果を得るために使用することもできます。多くの機能を組み合わせることもできるので、{"word": True, "something something": 1, "something else": "a"}. 最も重要なことは、機能が一貫していることです。したがって、常に同じ種類のキーと固定された可能な値のセットを使用できます。数値を使用することはできますが、分類子はそれらについて賢くありません。数値を個別の値として扱うため、99 と 100 は 1 と 100 と同じように異なります。数値をよりスマートな方法で処理したい場合は、次に、scikit-learn 分類器を使用することをお勧めします。

python - 1 つの分類子で NLTK 複数の機能セット?

1 に答える 1

Related

Reference