ダメラウ・レーベンシュタイン距離アルゴリズムのMySQL実装を、指定された単一の文字列をパラメーターとして受け取り、特定のテーブル内の特定のフィールドで文字列のあいまいな一致を探すストアドプロシージャ/関数として知っている人はいますか?
指定された2つの文字列を比較して距離を計算するさまざまな手順/関数のコード例を見つけましたが、最初はこれはレーベンシュタイン距離アルゴリズムであり、ダメラウ・レーベンシュタインのアルゴリズムではありません。次に、2つの文字列を比較するつもりはありません。しかし、指定した文字列に類似している、選択したフィールドであいまい一致を見つけます。
私は基本的にMySQLでファジーキーワードサーチャーをまとめようとしています。
質問する
5730 次
3 に答える
3
Githubには、Sean Collinsコードを変更して、UTF-8をサポートし、大文字と小文字を区別しないようにするための開発が進行中です。
例:
mysql> select damlevlim('camión', 'çamion', 6);
+--------------------------------------+
| damlevlim('camión', 'çamion', 6) |
+--------------------------------------+
| 0 |
+--------------------------------------+
1 row in set (0.00 sec)
これは、あいまい一致を行うときに特に役立ちます。
mysql> select word,damlevlim(word, 'camion') as dist from wordslist where damlevlim(word, 'camion', 7)<1 limit 2;
+--------+------+
| word | dist |
+--------+------+
| camión | 0 |
| camios | 1 |
+--------+------+
2 row in set (0.00 sec)
于 2013-08-05T15:45:44.440 に答える
2
MySQLLevenshteinおよびDamerau-LevenshteinUDFには、このアルゴリズムのいくつかの実装があります。
于 2013-01-09T12:46:40.223 に答える
2
これは古いトピックのようですが、ダメラウ・レーベンシュタイン距離のMYSQL実装を探す場合は、これが私自身の実装です(このサイトの他の場所にある単純なレーベンシュタインに基づいています)。これは、255文字未満の文字列で正常に機能します。 。3番目のパラメーターをFALSEに設定して、基本的なレーベンシュタイン距離を取得できます。
CREATE FUNCTION levenshtein( s1 VARCHAR(255), s2 VARCHAR(255), dam BOOL)
RETURNS INT
DETERMINISTIC
BEGIN
DECLARE s1_len, s2_len, i, j, c, c_temp, cost INT;
DECLARE s1_char, s2_char CHAR;
-- max strlen=255
DECLARE cv0, cv1, cv2 VARBINARY(256);
SET s1_len = CHAR_LENGTH(s1), s2_len = CHAR_LENGTH(s2), cv1 = 0x00, j = 1, i = 1, c = 0;
IF s1 = s2 THEN
RETURN 0;
ELSEIF s1_len = 0 THEN
RETURN s2_len;
ELSEIF s2_len = 0 THEN
RETURN s1_len;
ELSE
WHILE j <= s2_len DO
SET cv1 = CONCAT(cv1, UNHEX(HEX(j))), j = j + 1;
END WHILE;
WHILE i <= s1_len DO
SET s1_char = SUBSTRING(s1, i, 1), c = i, cv0 = UNHEX(HEX(i)), j = 1;
WHILE j <= s2_len DO
SET c = c + 1;
SET s2_char = SUBSTRING(s2, j, 1);
IF s1_char = s2_char THEN
SET cost = 0; ELSE SET cost = 1;
END IF;
SET c_temp = CONV(HEX(SUBSTRING(cv1, j, 1)), 16, 10) + cost;
IF c > c_temp THEN SET c = c_temp; END IF;
SET c_temp = CONV(HEX(SUBSTRING(cv1, j+1, 1)), 16, 10) + 1;
IF c > c_temp THEN SET c = c_temp; END IF;
IF dam THEN
IF i>1 AND j>1 AND s1_char = SUBSTRING(s2, j-1, 1) AND s2_char = SUBSTRING(s1, i-1, 1) THEN
SET c_temp = CONV(HEX(SUBSTRING(cv2, j-1, 1)), 16, 10) + 1;
IF c > c_temp THEN SET c = c_temp; END IF;
END IF;
END IF;
SET cv0 = CONCAT(cv0, UNHEX(HEX(c))), j = j + 1;
END WHILE;
IF dam THEN SET CV2 = CV1; END IF;
SET cv1 = cv0, i = i + 1;
END WHILE;
END IF;
RETURN c;
END
于 2016-01-31T22:38:58.167 に答える