テキストの類似性に潜在意味解析を使用しています。2つの質問があります。
寸法減少のためにK値を選択する方法は?
私は、そのLSIが、たとえば自動車や自動車などの類似した意味の単語で機能するすべての場所をよく読みます。どうしてそれは可能ですか?私がここで見逃している魔法のステップは何ですか?
テキストの類似性に潜在意味解析を使用しています。2つの質問があります。
寸法減少のためにK値を選択する方法は?
私は、そのLSIが、たとえば自動車や自動車などの類似した意味の単語で機能するすべての場所をよく読みます。どうしてそれは可能ですか?私がここで見逃している魔法のステップは何ですか?
kの一般的な選択は 300 です。理想的には、削減されたベクトルを使用する評価メトリックに基づいてkを設定します。たとえば、ドキュメントをクラスタリングしている場合、クラスタリング ソリューション スコアを最大化するkを選択できます。測定するベンチマークがない場合は、データセットの大きさに基づいてkを設定します。ドキュメントが 100 個しかない場合、それらを表すために数百の潜在因子が必要になるとは思わないでしょう。同様に、100 万のドキュメントがある場合、300 では小さすぎる可能性があります。ただし、私の経験では、kが小さすぎない限り (つまり、k= 300 はk = 1000とほぼ同じです)。
LSI と潜在的意味分析(LSA)を混同している可能性があります。これらは非常に関連性の高い手法であり、LSI はドキュメントを操作するのに対し、LSA は単語を操作するという違いがあります。どちらのアプローチも同じ入力 (用語 x ドキュメント マトリックス) を使用します。試してみたい場合は、優れたオープン ソース LSA 実装がいくつかあります。LSA のウィキペディア ページには包括的なリストがあります。
[1..n]からいくつかの異なる値を試して、実行しようとしているタスクに何が機能するかを確認してください
単語と単語の相関行列を作成し[つまり、cell(i、j)は(i、j)が共起するドキュメントの数を保持します]、PCAのようなものを使用します