algorithm - ニュースのクラスタリング

Question

Google ニュースと Techmeme は、類似したニュースアイテムをどのようにまとめますか? これを達成するために使用されるよく知られているアルゴリズムはありますか?

あなたの助けに感謝。

前もって感謝します。

score 5 · Accepted Answer

アルゴリズムの基礎は、凝集クラスタリングまたは類似のものです。しかし、その上に多くのヒューリスティックがあります。たとえば、ベクトル空間は必ず単語とフレーズ (単語 n-gram) で構成されます。検索を厳密な期間に制限することも非常に重要です。また、名前を特定し、タイトルと段落の見出しを重視することも重要な部分です。

接線的に関連するメモについて。ほぼ重複した記事を見つけることに興味がある場合は、ここで説明されているような、より簡単に実装できるアプローチがいくつかあります。

score 1 · Accepted Answer

それにはいくつかの方法があります。標準では、"bag of words" 分析 (加重 TF-IDF) を実行してから、コサイン類似度と k-means を実行します。

私はこの論文で成功しました: http://ieeexplore.ieee.org/xpl/articleDetails.jsp?reload=true&arnumber=4289851

それの素晴らしい点は次のとおりです: 1) 増分的で、ニュースに最適です。標準の k-means では、データセット全体が必要です。ニュースでは、通常、時間の経過とともに記事が到着します。インクリメンタルアルゴリズムがそれを解決します。2) フレーズベースです。そのため、単語だけでなくフレーズに依存しています。

最近では、単語の代わりに意味的な意味を使用する手法があります (たとえば、各記事から Wikipedia や DBPedia の概念を抽出し、単語だけの代わりにそれを使用するなど)。

algorithm - ニュースのクラスタリング

3 に答える 3

Related

Reference