Twitterでトピック検出用のツールを作成する予定です。私は、2 つのツイート間の適切な類似度 (距離)と、カウントを考慮してそれらを表す方法について考えてきました。
- (
#hashtags
Twitterで話題を探るにはハッシュタグがとても重要だと思います) - 返信 (誰かがツイートに返信した場合、それらのツイートは同じトピックについて話している可能性がありますが、2 人がsamsung galaxyについて話し始めて、 iPhone 脱獄について話し終わる可能性があります。)
私はこれまでに持っているものを実装し、いくつかの実験を行うことを考えています. 古典的なモデル (ユークリッド距離、角度余弦TF*IDF
などを使用) と、いくつかの類似度 (ハミング、ジャカードなど) を持つブール モデルを実装します。
既存のモデルをTwitterに適応させる方法や、新しいモデルを作成する方法についてのアイデアはありますか?