LSA とその確率的潜在的意味分析 (PLSA) との関係の両方を説明する Thomas Hofmann による良い話があります。この講演には数学が含まれていますが、PLSA の論文 (またはそのウィキペディアのページ) よりもはるかに簡単に理解できます。
PLSA を使用して、2 つのセンテンスを潜在クラスの確率分布から抽出された短いドキュメントと見なすことができるため、センテンス間の類似度を取得できます。ただし、類似性はトレーニング セットに大きく依存します。潜在クラス モデルのトレーニングに使用するドキュメントは、比較するドキュメントの種類を反映している必要があります。2 つの文で PLSA モデルを生成しても、意味のある潜在クラスは作成されません。同様に、非常に類似したコンテキストのコーパスを使用してトレーニングすると、ドキュメントのわずかな変更に過度に敏感な潜在クラスが作成される可能性があります。さらに、センテンスに含まれるトークンは (ドキュメントと比較して) 比較的少ないため、センテンス レベルで PLSA から質の高い類似性結果が得られるとは思えません。
PLSA は多義性を扱いません。ただし、多義性に関心がある場合は、入力テキストに対して Word Sense Disambiguation ツールを実行して、各単語に正しい意味のタグを付けてみてください。このタグ付きコーパスに対して PLSA (または LDA) を実行すると、結果の文書表現から多義性の影響が取り除かれます。
Sharmila が指摘したように、Latent Dirichlet Allocation (LDA) はドキュメント比較の最先端と見なされており、トレーニング データをオーバーフィットする傾向がある PLSA よりも優れています。さらに、LDA をサポートし、LDA で得られる結果が意味のあるものかどうかを分析するためのツールが他にも多数あります。(冒険好きなら、LDA から得られる潜在的なトピックの質を評価する方法に関する EMNLP 2011 の David Mimno の 2 つの論文を読むことができます。)