質問は漠然としているかもしれませんが、できるだけうまく言葉で表現しようとします。
そこで、センテンス (レビュー スニペットの一部) がポジティブかネガティブかニュートラルかを計算する大雑把なアルゴリズムを思いつきました (このセンテンスを EQ と呼びましょう)。したがって、5 つの文については、[-100, 100] に基づいて文の評価を行います。レビューは [0, 5] 基準で評価する必要があります
(0, 39.88) (1, 73.07) (2, 69.65) (3, 51.43) (4, 76.74)
私が苦労している選択は、レビュー スニペットの総合評価を計算するためにどの方法を選択すべきかということです。
少し調べて、2つのオプションを試しました
1) 50% パーセンタイル: 上記のデータ ポイントについては、70 としました。したがって、0 ~ 5 スケールでマッピングすると、4.2 になります。結果は良好ですが、残念なことに、パーセンタイルでは、スニペット内の EQ が文ごとにどのように変化したかを把握できません (並べ替えられたデータで機能するため、変化が失われるため)。2) ラグランジュ多項式: ここでは 69 に近づきました。しかし、このアプローチの問題点は、X 範囲の中間 (この場合は 2) で計算することが多いため、これも EQ の変動を捉えていないことです。文の(ここではエンドポイントは重要ではありません。ほとんどの場合、中間値が得られます)。
スニペットの EQ バリエーションをキャプチャし、全体的な感情を取得するために使用できる適切な値を与えることができる方法を選択する必要があります。
おそらくExcelのようなものがトレンドラインを引き、使用できる可能性があります??