Twitter.comが複数の単語でトレンドトピックを分類するために使用するアルゴリズムを教えてもらえますか?「#SoulTrainAwards」や「#DontYouWish」など、一言だけのトレンドを扱う場合、問題は簡単です。ただし、「Chrisette Michelle」、「Happy Halloween」、「Merry Christmas」など、複数の単語を含むトレンドを扱う場合は、まったく別の問題になります。これは、mltiple-wordトレンドの単語が別のトレンドになる可能性があるためです。たとえば、「Happy」という単語、または「Christmas」という単語だけを言います。
1 に答える
1
この質問でユーザーjudotensが指摘したように、メッセージをnグラムに分割します。Twitterはトレンドトピックで最大3語を使用していると思うので、メッセージ
猫は食べ物を食べました。
次の項目になります
- 猫が食べた
- 猫は食べました
- 食べ物を食べた
- 猫
- 猫が食べた
- 食べた
- 食べ物
- The
- 猫
- 食べた
- the
- 食物
次に、そのデータをある種のストリーミングアルゴリズムの入力として使用し、最も頻繁なアイテムを返すと思います。
于 2012-01-28T02:18:04.190 に答える