0

Twitter のトレンド トピックをリアルタイムで検出しようとしています。私がやっていることは、ツイートを取得するたびに、ツイートと同じトピックについて話しているクラスターにツイートを割り当てることです。使用しているクラスタリング アルゴリズムやトピックへのツイートの割り当て方法に関係なく、トレンド トピックを検出する方法を見つけることができません。

トレンド クラスター/トピックについての私の理解または定義は、特定の期間中に他のクラスターよりも多くのツイートが割り当てられているものであるということです。または、クラスタ サイズの更新頻度が他のクラスタよりも多い。

その定義を実際のコードや数学モデルに変換する方法は、私には解決できません。

これは、傾向のあるクラスターのサイズがどのように発展しているかの例です。 ここに画像の説明を入力

ご覧のように、クラスタ サイズはゼロになり、その後突然増加し始めます。これは、今ではホット トピックであり、ツイートがクラスタに割り当てられているためです。クラスターがホットな話題でなくなると、クラスターのサイズは比較的静的なままになります。

4

2 に答える 2

3

スケッチしたグラフの曲線に特定のしきい値を超える傾きがある状況を検出しようとしているようです。しかし、連続した曲線はありません。代わりに、クラスターへのツイートの割り当てごとに 1 つのサンプル ポイントがあります。理論的には、このような 2 つのサンプル ポイントが傾きを定義しますが、これらの傾きは非常にでこぼこに見えます。そうでなければ退屈なトピックに関する 2 つのツイートが連続して続くと、突然トレンドになります。これを回避するには、何らかの方法でデータを平滑化する必要があります。考えられる方法の 1 つは、一定時間 (たとえば 2 時間) または一定数のツイートにまたがるスライディング ウィンドウを使用することです。したがって、次のようなしきい値を定式化できます

  • 過去x分間のツイート数がyを超える場合はトレンドです。
  • 最後からy番目のツイートがx分前より長くない場合、それはトレンドです

このようにしきい値として表現すると、上記の 2 つの定式化は実際には同等です。トレンドを単一の数字で測るなら、この2つには違いがあります。

この単純なアプローチがうまくいかない場合は、Cross Validatedに問い合わせて、さまざまなピーク検出アルゴリズムを調査することもできます。これは、基本的に勾配関数でピークを見つける問題であるためです。

于 2013-07-15T10:05:00.847 に答える