問題タブ [sentence-similarity]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 何百万ものエントリ内でテキストの類似性を見つける方法は?
Spacy を使用していくつかのテキスト間で類似性を見つけたので、今では何百万ものエントリから類似のテキストを (瞬時に) 見つけようとしています。
何百万ものテキストを含むアプリがあり、ユーザーが要求した場合に同様のテキストを提示したいと考えています。
StackOverflow のようなサイトは、どのようにして同様の質問をすばやく見つけられるのでしょうか?
私は2つのアプローチを想像できます:
- テキストが挿入されるたびに、DB 全体が比較され、両方の質問の間でリンクが作成されます (両方の外部キーを持つ中間テーブルで)。
- テキストが挿入されるたびに、このテキストに関連付けられたフィールドにベクトルが挿入されます。ユーザーが同様のテキストを要求するたびに、DB で同様のテキストを「検索」します。
私の疑問は、2番目の選択肢にあります。単語ベクトルを格納するだけで、類似のテキストをすばやく検索できますか?