私はその分野に慣れていないので、最先端の技術とは何か、それについてどこで読めるのか、ほとんど疑問に思っています。
キー/値ストアがあり、距離(key1,key2) が何らかの形で定義されていると仮定しましょう (それがメトリックである必要があるかどうか、つまり、三角形の不等式が常に保持される必要があるかどうかはわかりません)。
私が欲しいのは主に、検索キーまでの特定の距離までのキーを持つすべてのアイテムを返す検索(キー)関数です。おそらく、その距離制限は構成可能です。たぶん、これも単なる怠惰なイテレータです。おそらく、カウント制限があり、アイテム (キー、値) が返されるセットの確率 P で、P = 1/距離 (キー、検索キー) 程度 (つまり、完全な一致は確かにセット内で、少なくとも高い確率でほぼ一致します)。
アプリケーションの例として、 MusicBrainzでの指紋照合があります。彼らはAcoustIdフィンガープリントを使用し、この比較関数を定義しています。彼らは PostgreSQL GIN インデックスを使用しており、(acoustid-server コードを完全には理解していない/読んでいませんが) GIN 部分一致アルゴリズムを使用していると思いますが、それが私が求めたものであり、それがどのように機能するかについては完全には理解していません。
テキストについては、これまでのところ、発音に基づいて単語を単純化する音声アルゴリズムを使用することがわかっています。例はこちらです。これは主に、検索スペースをより小さなスペースに分割するためです。ただし、これにはいくつかの制限があります。たとえば、狭いスペースでも完全に一致する必要があります。
とにかく、それが存在する場合、私はより一般的な解決策も探しています。