python - 膨大なコーパスの効率的な文字列類似検索

翻译自：https://stackoverflow.com/questions/71303439 2022-03-01T03:34:54.933

14 次

1

256 文字の長さの文字列と、それぞれ約 1000 語の 9000 エントリで構成されるコーパスとの間で類似検索を行っています。

を使用しました。 https://github.com/Jmkernes/Locality-sensitive-hashing-tutorial/blob/main/LocalitySensitiveHashing.ipynbLocalitySensitiveHashingを参照してください。それは私がフィルタリングしたペアを作成します。

ここでの問題の 1 つは、documents各エントリを約 1000 語で取得することです。これは、すべてをメモリに残す必要があるため、検索の効率を低下させます。一般的に、それは非常に遅いです。

目標は、256 文字の長い文字列と最も類似した内容を持つコーパスのインデックスをすばやく出力することです。

私の考えは次のとおりです。迅速な回復のために、エントリを単純化し、ファイルにシリアル化する必要があります。

どの論文または実装をお勧めしますか?

0 に答える 0