java - 文字列を Java の Collection とすばやく比較する

Question

最も近い一致を見つけるために、コレクションに対する文字列の編集距離を計算しようとしています。私の現在の問題は、コレクションが非常に大きい (約 25000 アイテム) ことです。そのため、セットを同じような長さの文字列だけに絞り込む必要がありましたが、それでも数千の文字列に絞り込むだけであり、これはまだ非常に遅いです。同様の文字列をすばやく検索できるデータ構造はありますか、またはこの問題に対処できる別の方法はありますか?

score 8 · Accepted Answer

BK ツリーが必要なようです。それらについて説明している記事があります: http://blog.notdot.net/2007/4/Damn-Cool-Algorithms-Part-1-BK-Trees。簡単なGoogleは、いくつかの Java 実装を生成します。

score 6 · Accepted Answer

レーベンシュタインオートマトンを使用すると、特定の単語から特定のレーベンシュタイン距離内に収まるように、大きな辞書から一連の単語をすばやく選択できます。

参照: Schulz K, Mihov S. (2002)レーベンシュタインオートマトンによる高速文字列修正。

score 2 · Accepted Answer

「類似」の基準が全体の順序付けを定義する場合、Comparator を定義し、TreeSet を使用して最も近い一致を見つけることができるはずです (たとえば、ceiling メソッドと floor メソッドを使用)。

java - 文字列を Java の Collection とすばやく比較する

3 に答える 3

Related

Reference