私はテキスト分析にレキシコンベースのアプローチを使用しています。基本的に、ポジティブ/ネガティブ/怒り/悲しい/幸せなどのマークが付いた単語の長いリストがあります。分析したいテキストの単語をレキシコンの単語と照合して、自分のテキストかどうかを判断できるようにします。ポジティブ/ネガティブ/怒り/悲しい/幸せなどです。
しかし、私が分析したいテキストの長さはさまざまです。それらのほとんどは100語未満ですが、次の例を検討してください。
ジョンは幸せです。(カテゴリ「幸せ」の1単語で、幸せのスコアは33%になります)
ジョンは昨日メアリーに幸せだと言った。(12.5%満足)
したがって、異なる文を比較すると、最初の文は2番目の文よりも「幸せ」であるように見えます。これは、文が短く、「幸せ」という単語に不釣り合いな%を与えるからです。
おそらく文の長さを考慮に入れることによって、より公平な比較を行うことができると考えることができるアルゴリズムまたは計算方法はありますか?