私は、類似度に基づいて文をグループ化する必要があるプロジェクトに取り組んでいます。
たとえば、次の文は 1 つのクラスターにグループ化する必要があります。
- Apple の巨大な第 1 四半期の収益は、ウォール街ではまだ不足している
- Apple が 2013 年第 1 四半期の収益を発表: 記録的な 545 億ドルの収益。
- Apple は過去最高の収益と利益を記録しました。iPhoneの売上は30%近く跳ね上がる。
タイトルは続々と入ってくるので、クラスターをその場でアレンジして修正する必要があるかもしれません。現在、Monge-Elkan アルゴリズムを使用して 2 つの文字列がどの程度類似しているかを特定していますが、それらをクラスター化する方法がわかりません。
インターネットで検索すると、K-Means アルゴリズムを使用してコンテンツをグループ化する必要があると思われますが、自分が持っているものをどのように処理すればよいかわかりません。
少し複雑なのは、Google App Engine でホストしているため、ファイル システムを使用できないことです。