cluster-analysis - トピック検出のための戦略とクラスタリングアルゴリズム

Question

次の問題を解決するための優れた戦略またはアルゴリズムを知りたい:

私が持っているものは次のとおりです。タイムスタンプと各記事のニュースカテゴリの加重ベクトルを持つ、さまざまなソースからのニュース記事のセット。

私が欲しいのは、同じトピックを扱うさまざまなソースからの記事のクラスターです。

基本的には、Google ニュースの重要な機能を真似したいと思います。つまり、トピックを提示し、同じトピックについてさまざまなニュースソースを一覧表示します。

上記のニュースカテゴリのベクトルのような記事には既に優れた機能があります。クラスタリングを行うための適切な戦略、クラスタリングアルゴリズム、およびライブラリを選択する必要があることを知っておく必要があります。

クラスタリングアルゴリズムに必要な機能:

クラスタリングを行ったことがないので、上記の機能を提供するクラスタリングアルゴリズムがあるかどうか、またはこれらの機能の一部が複雑すぎるか、クラスタリングが遅くなるため、回避策を見つける必要があるかどうかはわかりません。

私は mahout をクラスタリング用のライブラリとして見ていることを知っています。mahout または別のライブラリを使用してトピックを検出するために、すぐに使用できるオープンソースの実装はありますか?

score 0 · Accepted Answer

次の論文は、クラスターの数がまだわかっていない場合にトピックを検出するために私がこれまでに遭遇した最良のアプローチの 1 つだと思います。

cluster-analysis - トピック検出のための戦略とクラスタリング アルゴリズム