「ブリトニー・スピアーズ」の問題に焦点を当てたこの質問を見ました。しかし、私は少し別の質問があります。アルゴリズムは、どの単語またはフレーズをランク付けする必要があるかをどのように決定しますか? たとえば、「マイケル ジャクソンが死亡しました」というツイートを送信した場合、「マイケル ジャクソン」を抽出するが「死亡」を抽出しないことをどのように知るのでしょうか?
または、アレック・ボールドウィンとスティーブン・ボールドウィンがその日のニュースに出ていて、両方とも多くのツイートで言及されていたとします。単に「ボールドウィン」を取り出すのではなく、両方の名前を別の方法で扱うことをどのようにして知ることができるでしょうか?
素朴に考えてみると、この問題は NP 完全であることがわかりました (ツイート内のすべての潜在的なフレーズを、他のすべてのツイート内のすべての潜在的なフレーズと比較する必要があります)。