Twitter のトレンド トピックをリアルタイムで検出しようとしています。私がやっていることは、ツイートを取得するたびに、ツイートと同じトピックについて話しているクラスターにツイートを割り当てることです。使用しているクラスタリング アルゴリズムやトピックへのツイートの割り当て方法に関係なく、トレンド トピックを検出する方法を見つけることができません。
トレンド クラスター/トピックについての私の理解または定義は、特定の期間中に他のクラスターよりも多くのツイートが割り当てられているものであるということです。または、クラスタ サイズの更新頻度が他のクラスタよりも多い。
その定義を実際のコードや数学モデルに変換する方法は、私には解決できません。
これは、傾向のあるクラスターのサイズがどのように発展しているかの例です。
ご覧のように、クラスタ サイズはゼロになり、その後突然増加し始めます。これは、今ではホット トピックであり、ツイートがクラスタに割り当てられているためです。クラスターがホットな話題でなくなると、クラスターのサイズは比較的静的なままになります。