math - lsiの問題

Question

テキストの類似性に潜在意味解析を使用しています。2つの質問があります。

寸法減少のためにK値を選択する方法は？
私は、そのLSIが、たとえば自動車や自動車などの類似した意味の単語で機能するすべての場所をよく読みます。どうしてそれは可能ですか？私がここで見逃している魔法のステップは何ですか？

score 1 · Accepted Answer

kの一般的な選択は 300 です。理想的には、削減されたベクトルを使用する評価メトリックに基づいてkを設定します。たとえば、ドキュメントをクラスタリングしている場合、クラスタリングソリューションスコアを最大化するkを選択できます。測定するベンチマークがない場合は、データセットの大きさに基づいてkを設定します。ドキュメントが 100 個しかない場合、それらを表すために数百の潜在因子が必要になるとは思わないでしょう。同様に、100 万のドキュメントがある場合、300 では小さすぎる可能性があります。ただし、私の経験では、kが小さすぎない限り (つまり、k= 300 はk = 1000とほぼ同じです)。
LSI と潜在的意味分析(LSA)を混同している可能性があります。これらは非常に関連性の高い手法であり、LSI はドキュメントを操作するのに対し、LSA は単語を操作するという違いがあります。どちらのアプローチも同じ入力 (用語 x ドキュメントマトリックス) を使用します。試してみたい場合は、優れたオープンソース LSA 実装がいくつかあります。LSA のウィキペディアページには包括的なリストがあります。

score 0 · Accepted Answer

2 に答える 2