約 300 人の参加者がそれぞれ 45 の短い状況を生成し (多くの参加者が同じ状況を書きましたが)、その状況で不安を感じる程度を評価しました (1-5 リッカート スケール)。
サンプルデータ:
train = [('being at a sports game', '1'), ('selecting group members for a group project', '2'), ('interacting with overly dressed people', '1'), ('partnering up with a stranger for a class', '3'), ('having your presentation criticized by an audience member', '4'), ('being in a situation you cannot control', '3')]
Python で textblob を使用して、この単一項目のリッカート スケールで誰かがより高いスコアを獲得することにつながる一般的な単語があるかどうかを判断できるかどうか疑問に思っていました。
これまでのところ、単純なカテゴリ分類システムがあります。
#Import libraries
from textblob.classifiers import NaiveBayesClassifier
#Train the NBC with training data
cl = NaiveBayesClassifier(train)
#Examine Training Accuracy
cl.accuracy(train)
#Generates a list of informative features
cl.show_informative_features(50)
これが公称ではなく間隔(または順序と言う人もいます)データであることを考慮に入れるにはどうすればよいですか?(たとえば、「見知らぬ人」という単語を含めると、不安が X% 増加します。)
これが不可能な場合 (またはそうでない場合でも)、特定の状況が各リッカート カテゴリでラベル付けされる確率の割合を出力する方法はありますか? (例: 1 = 0.08、2 = 0.23、3 = 0.44、4 = 0.19、5 = 0.06)
任意の推奨事項をいただければ幸いです。