java - String オブジェクトで K-means アルゴリズムを実行するにはどうすればよいですか?

Question

私は、類似度に基づいて文をグループ化する必要があるプロジェクトに取り組んでいます。

たとえば、次の文は 1 つのクラスターにグループ化する必要があります。

タイトルは続々と入ってくるので、クラスターをその場でアレンジして修正する必要があるかもしれません。現在、Monge-Elkan アルゴリズムを使用して 2 つの文字列がどの程度類似しているかを特定していますが、それらをクラスター化する方法がわかりません。

インターネットで検索すると、K-Means アルゴリズムを使用してコンテンツをグループ化する必要があると思われますが、自分が持っているものをどのように処理すればよいかわかりません。

少し複雑なのは、Google App Engine でホストしているため、ファイルシステムを使用できないことです。

score 3 · Accepted Answer

編集距離メトリックは、文章の意味の類似性を効果的にモデル化する可能性は低いです。文字列としてのテキストの低レベル表現についても同じことが言えます。

より良いアプローチは、ベクトル空間モデルなどの高レベルの表現を使用することです。ここでは、文のコレクション (コーパス) 内のすべての一意の単語を収集し、それぞれを番号にマップします。各文書 (文) はベクトルとして表されます。

[w1_count, w2_count, ..., wN_count]

ここで、N 番目の要素は、特定の文の N 番目の単語 (番号 N にマップされた単語) の数です。

これで、このデータセットで k-means を実行できますが、より良い方法は次のとおりです。

「Apple」などの重要な単語が「on」や「in」などの一般的な単語よりも重み付けされるようにデータを処理します。そのような手法の 1 つがTF-IDFです。次に、ユークリッド距離を使用して、これに対して標準の k-means を実行します。
さらに良いことに、 Latent Semantic AnalysisやLatent Dirichlet Allocationなどのさらに高レベルのツールを使用してください。

既存のアプローチを使用したい場合は、Simon G. の回答が正しい方向を示しており、この質問で距離カバーとの類似性が回答されています。

score 2 · Accepted Answer

まず、距離として考えられるように、類似点を非類似点に変更します

次に、多次元スケーリングライブラリを使用して、距離を空間内のポイントに変更します。

3 番目に、空間内の点に対して通常の k-means を使用します。

2 に答える 2