nlp - 潜在ディリクレ配分と文書クラスタリングの関係

Question

潜在的ディリクレ配分 (LDA) とドキュメントクラスタリングの一般的なタスクとの関係を明らかにしたいと思います。

LDA 分析は、各ドキュメントのトピックの比率を出力する傾向があります。私の理解が正しければ、これはドキュメントクラスタリングの直接の結果ではありません。ただし、この確率比率を各ドキュメントの特徴表現として扱うことができます。その後、LDA 分析によって生成された機能構成に基づいて、他の確立されたクラスタリング方法を呼び出すことができます。

私の理解は正しいですか？ありがとう。

score 10 · Accepted Answer

はい、LDA の出力をドキュメントの機能として扱うことができます。これはまさに、Blei、Ng、および Jordan がLDA を紹介した論文で行ったことです。彼らは分類のためにそれを行いましたが、クラスタリングの手順は同じです。

(機械学習の用語では、この LDA の使用は次元削減と呼ばれます。これは、特徴空間の次元数を語彙サイズ| V | から、ユーザーが選択したトピック数kに削減するためです。)

nlp - 潜在ディリクレ配分と文書クラスタリングの関係

1 に答える 1

Related

Reference