7

トピックに基づいて短いメッセージ/ツイートのクラスターを作成するアプリケーションを計画しています。スポーツ [NBA、NFL、クリケット、サッカー]、エンターテイメント [映画、音楽] など、トピックの数は限られています。

これには2つのアプローチが考えられます

  • Stackoverflow が行うように、ユーザーに質問にタグを付けるように依頼します。ユーザーは、事前定義されたタグのリストからタグを選択できます。次に、サーバー側で、タグに基づいてそれらをクラスター化します。長所: - シンプルなデザイン。コードの複雑さが軽減されます。短所:- ユーザーの選択肢が制限されます。クラスタは動的ではありません。新しいイベントが発生した場合、事前定義されたタグはそれを見逃します。
  • メッセージを取得し、[辞書で事前定義された] ストップワードを削除し、ステミングされたメッセージに何らかのクラスタリング アルゴリズムを適用してクラスターを作成し、その人気度に応じてクラスターを表示します。クラスターは人気が続くまで表示されます [多くのメッセージ/分]。新しいメッセージはスキミングされ、対応するクラスターに割り当てられます。長所:- イベント/事故の人気に基づく動的クラスタリング。短所:- 複雑さが増します。より多くのサーバー リソースが必要です。

この問題に対する他のアプローチがあるかどうかを知りたいです。または、上記の方法を改善する方法はありますか?

また、いくつかの優れたクラスタリング アルゴリズムを提案します。この状況には、「K-Nearest Clustering」アルゴリズムが適していると思います。

4

3 に答える 3

3

Carrot2 を確認してください。このツールは、テキストとクラスターからタグを抽出します。ここからダウンロードして、実装されているアルゴリズム (主に Lingo) を確認できます

これがお役に立てば幸いです。

于 2011-04-27T17:51:53.773 に答える
2

ベイジアン分類を使用します。事前定義されたコーパスを使用してフィルターをトレーニングし、(オプションで) 誤って分類されたものにフラグを立てて、ユーザーがフィルターをさらに絞り込む方法を提供します。

NLTKでベイジアン分類器を使用する例を次に示します。

于 2010-05-28T17:05:59.200 に答える
0

私も似たようなことをやっています。特にツイッターについて話しているのであれば、ハッシュタグは良い方法だと思います。いくつかの分類を実行することもできますが、ウィキペディアなどの外部知識ベースで強化する必要があります。とにかく、ソリューションが優れている場合は、ここに投稿してください

于 2012-10-02T09:14:11.123 に答える