256 文字の長さの文字列と、それぞれ約 1000 語の 9000 エントリで構成されるコーパスとの間で類似検索を行っています。
を使用しました。 https://github.com/Jmkernes/Locality-sensitive-hashing-tutorial/blob/main/LocalitySensitiveHashing.ipynbLocalitySensitiveHashing
を参照してください。それは私がフィルタリングしたペアを作成します。
ここでの問題の 1 つは、documents
各エントリを約 1000 語で取得することです。これは、すべてをメモリに残す必要があるため、検索の効率を低下させます。一般的に、それは非常に遅いです。
目標は、256 文字の長い文字列と最も類似した内容を持つコーパスのインデックスをすばやく出力することです。
私の考えは次のとおりです。迅速な回復のために、エントリを単純化し、ファイルにシリアル化する必要があります。
どの論文または実装をお勧めしますか?