7

「ブリトニー・スピアーズ」の問題に焦点を当てたこの質問を見ました。しかし、私は少し別の質問があります。アルゴリズムは、どの単語またはフレーズをランク付けする必要があるかをどのように決定しますか? たとえば、「マイケル ジャクソンが死亡しました」というツイートを送信した場合、「マイケル ジャクソン」を抽出するが「死亡」を抽出しないことをどのように知るのでしょうか?

または、アレック・ボールドウィンとスティーブン・ボールドウィンがその日のニュースに出ていて、両方とも多くのツイートで言及されていたとします。単に「ボールドウィン」を取り出すのではなく、両方の名前を別の方法で扱うことをどのようにして知ることができるでしょうか?

素朴に考えてみると、この問題は NP 完全であることがわかりました (ツイート内のすべての潜在的なフレーズを、他のすべてのツイート内のすべての潜在的なフレーズと比較する必要があります)。

4

2 に答える 2

2

一般的な単語のセットを探すと思います。また、http://www.whatthetrend.com/を参照しているようです。

これに加えて、わずかな人間の制御も含まれる可能性があります。

于 2010-01-03T19:37:39.493 に答える
2

この問題の一般的な解決策は、「用語頻度、逆ドキュメント頻度」(tf-idf)を使用することです。

これは、あまり頻繁に見られないため、他の単語/用語よりも関連性の高い単語/用語を見つける統計的アプローチです。この場合、「Michael Jackson」という名前は、一般的な英語の単語「died」に比べて頻度が非常に低い可能性があります。

アレック・ボールドウィンとスティーブン・ボールドウィンの場合、これらは品詞のタグ付け中に別個のものとして識別され、個々の固有名詞としてタグ付けされます。

于 2010-01-03T19:35:01.793 に答える