Spacy を使用していくつかのテキスト間で類似性を見つけたので、今では何百万ものエントリから類似のテキストを (瞬時に) 見つけようとしています。
何百万ものテキストを含むアプリがあり、ユーザーが要求した場合に同様のテキストを提示したいと考えています。
StackOverflow のようなサイトは、どのようにして同様の質問をすばやく見つけられるのでしょうか?
私は2つのアプローチを想像できます:
- テキストが挿入されるたびに、DB 全体が比較され、両方の質問の間でリンクが作成されます (両方の外部キーを持つ中間テーブルで)。
- テキストが挿入されるたびに、このテキストに関連付けられたフィールドにベクトルが挿入されます。ユーザーが同様のテキストを要求するたびに、DB で同様のテキストを「検索」します。
私の疑問は、2番目の選択肢にあります。単語ベクトルを格納するだけで、類似のテキストをすばやく検索できますか?