5

しかし最近、数学をあまり使わなくても LSA の原理を理解するには、このリンクが非常に役立つことがわかりました。 http://www.puffinwarellc.com/index.php/news-and-articles/articles/33-latent-semantic-analysis-tutorial.html . それは私がさらに構築するための良い基礎を形成します。

現在、私は確率的潜在的セマンティック分析/インデックス作成の同様の紹介を探しています。数学は少なく、その背後にある原則を説明する例が多くなっています。そのような紹介をご存知でしたら教えてください。

文間の類似度の尺度を見つけるために使用できますか? それは多義性を扱いますか?

同じためのpython実装はありますか?

ありがとうございました。

4

1 に答える 1

8

LSA とその確率的潜在的意味分析 (PLSA) との関係の両方を説明する Thomas Hofmann による良い話があります。この講演には数学が含まれていますが、PLSA の論文 (またはそのウィキペディアのページ) よりもはるかに簡単に理解できます。

PLSA を使用して、2 つのセンテンスを潜在クラスの確率分布から抽出された短いドキュメントと見なすことができるため、センテンス間の類似度を取得できます。ただし、類似性はトレーニング セットに大きく依存します。潜在クラス モデルのトレーニングに使用するドキュメントは、比較するドキュメントの種類を反映している必要があります。2 つの文で PLSA モデルを生成しても、意味のある潜在クラスは作成されません。同様に、非常に類似したコンテキストのコーパスを使用してトレーニングすると、ドキュメントのわずかな変更に過度に敏感な潜在クラスが作成される可能性があります。さらに、センテンスに含まれるトークンは (ドキュメントと比較して) 比較的少ないため、センテンス レベルで PLSA から質の高い類似性結果が得られるとは思えません。

PLSA は多義性を扱いません。ただし、多義性に関心がある場合は、入力テキストに対して Word Sense Disambiguation ツールを実行して、各単語に正しい意味のタグを付けてみてください。このタグ付きコーパスに対して PLSA (または LDA) を実行すると、結果の文書表現から多義性の影響が取り除かれます。

Sharmila が指摘したように、Latent Dirichlet Allocation (LDA) はドキュメント比較の最先端と見なされており、トレーニング データをオーバーフィットする傾向がある PLSA よりも優れています。さらに、LDA をサポートし、LDA で得られる結果が意味のあるものかどうかを分析するためのツールが他にも多数あります。(冒険好きなら、LDA から得られる潜在的なトピックの質を評価する方法に関する EMNLP 2011 の David Mimno の 2 つの論文を読むことができます。)

于 2011-07-28T11:05:56.883 に答える