0

U、A、V から生成される行列である LSI を介して、同義語を持つドキュメントをまとめると言われています。たとえば、「car」を検索すると、「automobile」を含むドキュメントも取得されます。しかし、LSI は行列の操作に他なりません。セマンティクスではなく、頻度のみが考慮されます。では、私が見逃しているこの魔法の背後にあるものは何ですか? 説明してください。

4

2 に答える 2

0

LSI は、基本的に各文書の頻度プロファイルを作成し、類似した頻度プロファイルを持つ文書を探します。頻度プロファイルの残りの部分が十分に類似している場合、たとえ 1 つの単語が体系的に置き換えられていたとしても、2 つの文書はかなり類似していると分類されます。逆に、頻度プロファイルが異なる場合、ドキュメントがいくつかの特定の用語の頻繁な使用を共有している場合でも、ドキュメントを異なるものとして分類できます/分類します (たとえば、「ファイル」は場合によってはコンピューターに関連し、「ファイル」は以前はそれ以外の場合は、金属をカットして滑らかにします)。

LSI は通常、比較的大きなドキュメント グループにも使用されます。他のドキュメントも同様に類似点を見つけるのに役立ちます。ドキュメント A と B が大きく異なっているように見えても、ドキュメント C が A と B の両方からかなりの数の用語を使用している場合、A と B が本当にかなり似ていることを見つけるのに役立ちます。

于 2009-11-21T02:52:39.510 に答える
0

ウィキペディアの記事によると、「LSI は、同じ文脈で使用される単語は類似した意味を持つ傾向があるという原則に基づいています。」つまり、2 つの単語が同じ意味で使用されているように見える場合、それらは同義語である可能性があります。

それは絶対確実ではありません。

于 2009-11-20T15:18:50.557 に答える