問題タブ [locality-sensitive-hash]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 膨大なコーパスの効率的な文字列類似検索
256 文字の長さの文字列と、それぞれ約 1000 語の 9000 エントリで構成されるコーパスとの間で類似検索を行っています。
を使用しました。 https://github.com/Jmkernes/Locality-sensitive-hashing-tutorial/blob/main/LocalitySensitiveHashing.ipynbLocalitySensitiveHashing
を参照してください。それは私がフィルタリングしたペアを作成します。
ここでの問題の 1 つは、documents
各エントリを約 1000 語で取得することです。これは、すべてをメモリに残す必要があるため、検索の効率を低下させます。一般的に、それは非常に遅いです。
目標は、256 文字の長い文字列と最も類似した内容を持つコーパスのインデックスをすばやく出力することです。
私の考えは次のとおりです。迅速な回復のために、エントリを単純化し、ファイルにシリアル化する必要があります。
どの論文または実装をお勧めしますか?