スローガン (複数の単語からなる短いフレーズ) のリストがあり、人々が最も気に入ったスローガンに投票したとします。また、あるスローガンが他のスローガンよりも人気になった単語があれば、それを評価したいとします。これを達成するための最良の方法は何ですか?私が最初に考えたのは、スローガンのセット内のすべての固有の単語を見つけて、その単語を含むすべてのスローガンの平均投票数として各単語をスコア付けすることでしたが、頻度も何らかの形で作用するはずです。以下が真である必要があります。
- 単語 A が最も多くの票を獲得したスローガンにのみ出現し、単語 B が 2 番目に多くの票を獲得したスローガンにのみ出現する場合、単語 A はより「人気を生み出す」
- ただし、単語 A が 1 位のスローガンにのみ出現し、単語 B が 2 位と 3 位のスローガンの両方に出現する場合、より多くのスローガンを上位に押し上げたので、単語 B が勝つはずです。
- ただし、上部のスローガンでの単語 A の 1 回の出現は、他のスローガンでの単語 B の 3 回の出現よりも、それらがパックの中間または下半分にある場合 (つまり、採点と採点の頻度のバランスをとる必要があります)。
また、一般的によく使われる単語 (「the」や「of」など) も削除したいと考えています。これは、過去に尋ねられた流行語を特定することに関する質問に関連していますが、時間の経過に伴う変化は要因ではないため、異なります. 文学に関する限り、これについて正しい方向に向けられただけでうれしいのですが、何を探すべきか本当にわかりません. これは、他の人が対処するクラスの問題ですか?