問題タブ [locality-sensitive-hash]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

96 問題

0 投票する

0 に答える

14 参照

python - 膨大なコーパスの効率的な文字列類似検索

256 文字の長さの文字列と、それぞれ約 1000 語の 9000 エントリで構成されるコーパスとの間で類似検索を行っています。

を使用しました。 https://github.com/Jmkernes/Locality-sensitive-hashing-tutorial/blob/main/LocalitySensitiveHashing.ipynbLocalitySensitiveHashingを参照してください。それは私がフィルタリングしたペアを作成します。

ここでの問題の 1 つは、documents各エントリを約 1000 語で取得することです。これは、すべてをメモリに残す必要があるため、検索の効率を低下させます。一般的に、それは非常に遅いです。

目標は、256 文字の長い文字列と最も類似した内容を持つコーパスのインデックスをすばやく出力することです。

私の考えは次のとおりです。迅速な回復のために、エントリを単純化し、ファイルにシリアル化する必要があります。

どの論文または実装をお勧めしますか?

2022-03-01T03:34:54.933

1 2 3 4 5 6 7 8 9 10

問題タブ [locality-sensitive-hash]

python - 膨大なコーパスの効率的な文字列類似検索

Reference