1

最終年度のプロジェクトで、音楽に焦点を当てた検索エンジンを開発しようとしています。潜在的意味分析と、それがインターネット上でどのように機能するかについて調査を行っています。LSI が検索エンジンのシステム全体のどこに位置するかを理解するのに苦労しています。Web クローラーが Web ページの検索を終了した後に使用する必要がありますか?

4

1 に答える 1

1

音楽検索についてはよくわかりませんが、テキスト検索では、検索エンジンが情報検索のベクトル空間モデルを利用している場合にのみ、LSAが関係します。Luceneなどの最も一般的な検索エンジンは、各ドキュメントを単語(トークン)に分割し、ストップワードを削除して残りをインデックスに入れます。各検索エンジンは通常、ドキュメント内の用語の重要性を示す用語の重みに関連付けられています。

これで、(トークン、重み)ペアのリストを、ドキュメントを表すベクトルとして表示できます。これらすべてのベクトルを巨大なマトリックスに結合し、それにLSAアルゴリズムを適用すると(クロールとトークン化の後、インデックス作成)​​、LSAアルゴリズムの結果を使用して、インデックス作成前にすべてのドキュメントのベクトルを変換できます。

元のベクトルでは、トークンがベクトル空間の次元を表していることに注意してください。LSAは新しいディメンションのセットを提供し、トークンの代わりにそれらにインデックスを付ける必要があります(たとえば、自動生成された整数の形式で)。

さらに、クエリを(トークン、重み)ペアのベクトルに変換してから、LSAベースの変換をそのベクトルにも適用する必要があります。

実際のテキスト検索エンジンで実際にこれらすべてを実行している人がいるかどうかはわかりません。1つの問題は、すべてのドキュメントベクトルの行列に対してLSAアルゴリズムを実行すると、多くの時間とメモリを消費することです。もう1つの問題は、更新の処理です。つまり、新しいドキュメントが追加されたとき、または既存のドキュメントが変更されたときです。理想的には、マトリックスを再計算し、LSAを再実行してから、既存のすべてのドキュメントベクトルを変更し、インデックス全体を再生成します。正確にはスケーラブルではありません。

于 2012-02-24T09:00:37.123 に答える