8

プロジェクトに照らして、私は Python NLTK とドキュメント分類、および Naive Bayes 分類子を使用してきました。ドキュメントからわかるように、これは、さまざまなドキュメントがラベルとして pos または neg でタグ付けされている場合 (または 2 つ以上のラベル) に非常にうまく機能します。

私が作業している、既に分類されている文書にはラベルがありませんが、0 から 5 までの浮動小数点であるスコアがあります。

私がやりたいのは、ドキュメントの映画の例のような分類器を構築することですが、それはラベルではなくテキストのスコアを予測します。これはドキュメントで言及されていると思いますが、「数値特徴の確率」としてさらに調査されることはありません

私は言語の専門家でも統計学者でもないので、誰かがこのような例を持っている場合は、これを共有していただければ幸いです. ありがとう!

4

2 に答える 2

1

あなたが探しているのは線形回帰であり、scikit-learn は NLTK よりもはるかに優れています。http://scikit-learn.org/stable/modules/linear_model.html を参照してください。

于 2012-10-24T00:05:54.570 に答える
0

これは非常に遅い答えですが、おそらく誰かを助けるでしょう.

あなたが求めているのは回帰です。ジェイコブの答えに関しては、線形回帰はそれを行う唯一の方法です。しかし、彼の scikit-learn の推奨には同意します。

于 2013-03-26T00:52:44.403 に答える