タグに基づいて多くのフィードをクラスター化しようとしています。典型的な例は、Twitter フィードです。各フィードには、ユーザー定義のタグが関連付けられています。タグを分析することで、フィードをさまざまなグループに分類し、非常に多くのフィードが非常に多くのタグに基づいていることを確認できますか。例は-
- Feed1 - インドネシアの地震 #earthquake #asia #bad
- フィード 2 - 私の地域で大規模な地震が発生しました #earthquake #bad
- Feed3 - 私の両親はシンガポール #アジア #ツアーに行きました
- Feed4 - XYZ社は多くの人を解雇しています #XYZ #layoff #bear
- フィード 5 - XYZ が悪化している、レイオフを計画している #XYZ #layoff #bad
- フィード 6 - XYZ は一時解雇中 #layoff #XYZ #最悪
クラスタリング後
- #アジア 、 # 地震 - フィード 1 、フィード 2
- #XYZ , #レイオフ - Feed4 , Feed 5 , Feed6
ここでは、クラスタリングは純粋にタグに基づいています。これを達成するための良いアルゴリズムはありますか