1

朝からかなりの数のチュートリアルを読みました。私の問題は、2 つのドキュメント間の類似性を見つけることです。この目的のために Java で LSA を使用することを楽しみにしています。

term-document マトリックスの作成を理解してから、SVD(Dimensionality gets Reduce) を適用します。結果として 3 つの行列が取得されます。これはばかげているように聞こえるかもしれませんが、私はかなり長い間これに固執してきました。2 つのドキュメント間の類似性を見つけなければならない場合、どうすればよいですか?

4

1 に答える 1

1

SVD を使用して 3 つの行列を計算した後、比較する 2 つのドキュメントのベクトル間の相関を計算する必要があります。スピアマンの相関を使用できます。別の方法は、余弦距離を使用することです。

詳細についてはLSAを参照してください。説明付きの完全な例があります。

LSA 用の Java ライブラリを検索することもできます。

于 2012-01-28T02:02:14.890 に答える