java - 文字列類似性メトリックに関するアドバイス（Java）。距離、音のように聞こえますか、それともコンボですか？

Question

プロセスの一部では、文字列類似性アルゴリズムを適用する必要があります。

このプロセスの結果が保存され、SS_Datasetなどが生成されます。

このデータセットに基づいて、さらに決定を下す必要があります。

私の質問は次のとおりです。

SS_Datasetを生成するために1つ以上の文字列類似性アルゴリズムを適用する必要がありますか？
「距離」と「音のような」類似性を計算するアルゴリズム間の比較はありますか？

アルゴリズムの1つのファミリは、他のファミリよりも正確な結果を生成しますか？組み合わせにより、類似性についてより正確な結果が得られますか？

使用した実装をお勧めできますか？

私の実装には、次のライブラリのパッケージが含まれます

http://www.dcs.shef.ac.uk/~sam/simmetrics.html

http://jtmt.sourceforge.net/

score 0 · Accepted Answer

どちらが最適かは、何をしようとしているのかによって異なります。Soundex と最小編集距離 (別名レーベンシュタイン) は、理解しやすいため、広く使用されています。入力のタイプミスやスペルミスに対処しようとしている場合に役立ちます。申し訳ありませんが、「特定の目的でそれらがどれだけうまく機能するかを自分で実験する必要があります」以上のことはできません.

java - 文字列類似性メトリックに関するアドバイス（Java）。距離、音のように聞こえますか、それともコンボですか？

1 に答える 1

Related

Reference