python - NLTK: ラベルの代わりに数値スコアを使用した文書分類

Question

プロジェクトに照らして、私は Python NLTK とドキュメント分類、および Naive Bayes 分類子を使用してきました。ドキュメントからわかるように、これは、さまざまなドキュメントがラベルとして pos または neg でタグ付けされている場合 (または 2 つ以上のラベル) に非常にうまく機能します。

私が作業している、既に分類されている文書にはラベルがありませんが、0 から 5 までの浮動小数点であるスコアがあります。

私がやりたいのは、ドキュメントの映画の例のような分類器を構築することですが、それはラベルではなくテキストのスコアを予測します。これはドキュメントで言及されていると思いますが、「数値特徴の確率」としてさらに調査されることはありません

私は言語の専門家でも統計学者でもないので、誰かがこのような例を持っている場合は、これを共有していただければ幸いです. ありがとう！

score 1 · Accepted Answer

あなたが探しているのは線形回帰であり、scikit-learn は NLTK よりもはるかに優れています。http://scikit-learn.org/stable/modules/linear_model.html を参照してください。

score 0 · Accepted Answer

これは非常に遅い答えですが、おそらく誰かを助けるでしょう.

あなたが求めているのは回帰です。ジェイコブの答えに関しては、線形回帰はそれを行う唯一の方法です。しかし、彼の scikit-learn の推奨には同意します。

python - NLTK: ラベルの代わりに数値スコアを使用した文書分類

2 に答える 2

Related

Reference