現在、セマンティクス (意味) に基づいて 2 つのテキストを比較するプログラムを開発しています。文字列の距離を比較するための便利な方法を提供する lingpipe などのライブラリがあることは理解していますが、テキストの類似性を測定するには LSA が最適な方法であると聞いています。
LSA を使用してテキストの類似性を測定することに関して、1 つだけ混乱があります。そのプロセスは、LSA では、
1.Two passages are represented as two matrices X and Y.
2.Using SVD, the matrices each are reduced to 3 different matrices
3.And then the cosine distance is measured between the two matrices
4. The cosine distance determines how similar they are
ただ知りたいだけです...
A. SVD では、行列は 3 つの小さな行列に縮小されます。では、余弦距離の測定に使用される小さい行列はどれでしょうか?
B. 通常、余弦距離はベクトルに適用されます。したがって、それらを行列に適用する場合、行列が反復され、2つのベクトルごとにコサイン距離が測定されると仮定しました。そして、これらすべての距離の平均は、これら 2 つの行列間の最終的なコサイン距離であると見なされますか?
これは非常にニッチなトピックであることは理解していますが、この 2 つの質問に光を当てたいと思っています。ありがとう