プロジェクトに照らして、私は Python NLTK とドキュメント分類、および Naive Bayes 分類子を使用してきました。ドキュメントからわかるように、これは、さまざまなドキュメントがラベルとして pos または neg でタグ付けされている場合 (または 2 つ以上のラベル) に非常にうまく機能します。
私が作業している、既に分類されている文書にはラベルがありませんが、0 から 5 までの浮動小数点であるスコアがあります。
私がやりたいのは、ドキュメントの映画の例のような分類器を構築することですが、それはラベルではなくテキストのスコアを予測します。これはドキュメントで言及されていると思いますが、「数値特徴の確率」としてさらに調査されることはありません
私は言語の専門家でも統計学者でもないので、誰かがこのような例を持っている場合は、これを共有していただければ幸いです. ありがとう!