19

トピック モデリング (テキストから可能なトピックを抽出する) の最も一般的な手法は、Latent Dirichlet Allocation (LDA) であると読みました。

しかし、Word2Vec は単語をベクトル空間でクラスター化するので、トピック モデリングを試してみるのは良い考えではないかと興味があります。クラスターをトピックと見なすことはできないのでしょうか。

研究のためにこのアプローチに従うことは理にかなっていると思いますか? 結局のところ、私が興味を持っているのは、トピックに応じてテキストからキーワードを抽出することです。

4

3 に答える 3

4

2 人がこれを解決しようとしました。

StichFix の Chris Moody が LDA2Vec を発表し、CMU の何人かの博士課程の学生が「Word Embeddings を使用したトピック モデルのガウス LDA」という論文を書きました。ここにコードを記述しました...ただし、Java コードを取得して意味のある結果を出力することはできませんでした。 . word2vec をガウス分布 (実際には数学を計算すると T 分布) の単語トピック分布で使用するという興味深いアイデアです。Gaussian LDA は、トレーニングの語彙外の単語を処理できる必要があります。

LDA2Vec は、LDA モデルと単語ベクトルの両方を同時にトレーニングしようとします。また、非常に興味深い結果を得るために、非単語に LDA 事前確率を配置することもできます。

于 2016-03-29T00:06:57.693 に答える