6

Twitterでトピック検出用のツールを作成する予定です。私は、2 つのツイート間の適切な類似度 (距離)と、カウントを考慮してそれらを表す方法について考えてきました。

  • #hashtagsTwitterで話題を探るにはハッシュタグがとても重要だと思います)
  • 返信 (誰かがツイートに返信した場合それらのツイートは同じトピックについて話している可能性がありますが、2 人がsamsung galaxyについて話し始めて、 iPhone 脱獄について話し終わる可能性があります。)

私はこれまでに持っているものを実装し、いくつかの実験を行うことを考えています. 古典的なモデル (ユークリッド距離角度余弦TF*IDFなどを使用) と、いくつかの類似度 (ハミングジャカードなど) を持つブール モデルを実装します。

既存のモデルをTwitterに適応させる方法や、新しいモデルを作成する方法についてのアイデアはありますか?

4

1 に答える 1

5

Twitter の類似性メトリックでは、Twitterからのデータをまとめてクラスタリングするために使用できるさまざまな類似性尺度について、いくつかの詳細が説明されています。ユーザーのつながり、ユーザーのメンション、地理的位置、ツイート間のコンテンツの類似性、ユーザーの説明と一般的な # ハッシュタグ間のコンテンツの類似性に基づいて、Twitter でユーザーをクラスタリングするための調査を行いました。

Twitter で共通のトピックを見つけるには、そのトピックについて議論しているユーザー間のつながりを見つけることが非常に役立ちます。また、ユーザーのグループは共通のトピックについて議論する傾向があることがわかりました。これについては、この記事の後半で詳しく説明します。

于 2013-02-06T11:48:22.917 に答える