python - ドキュメント内の語句の意味論的クラスタリング

Question

意味の類似性に基づいて単語をクラスタリングしたいと考えています。現在、検出された名詞句を含むドキュメントのリストがあります。ドキュメント内のこれらの取得された名詞からクラスターを作成し、教師なしでそれらを意味的にクラスター化したいですか?

wordnet と gensim ライブラリを見てきました。意味的な類似性に基づいて、必要な単語のクラスターを取得するのに本当に役立つものはどれですか?

score 1 · Accepted Answer

フレーズの共起に基づく類似性 (ドキュメント内で一緒に出現する頻度が高いフレーズほど類似性が高くなります) には、gensim を使用できます。

潜在的セマンティック分析と潜在的ディリクレ割り当てを確認してください: http://radimrehurek.com/gensim/tut2.html#available-transformations

クラスターに何をさせたいかによって、LSI/LDA トピックをクラスターとして直接使用することができます。または、取得した潜在フレーズベクトルなどをクラスタリングします。

1 に答える 1