私は2つのデータベースを持っておりa
、b
その中に科学論文のタイトルがあります。それらのデータベースを1つのデータベースにマージしたいと思いますc
。
a
含まれていないタイトルが含まれている可能性がb
あり、その逆も可能です。- タイトルがデータベース
a
との両方にある可能性がありますb
。 - 文字と句読点の大文字と小文字が一致しない可能性があります。
- 「これはタイトルです。」VS. 「これはタイトルです」
- 「これは-さらに別の-タイトルです。」VS. 「これはまた別のタイトルです」
- 「blaに基づくk-meanアルゴリズム。」VS「blaに基づくk平均アルゴリズム」
最初に、MySQL内でlevenstein距離関数を使用して、両方のデータベースの同じタイトルに一致させることを考えましたが、何百万もの行を見ると、これで十分に機能するかどうかわかりません。次に、タイトルと一致する全文検索を考えましたが、私が知る限り、全文検索は一般的な単語と一致しないため、実際には異なる類似のタイトルでは一致がうまく機能しません。
結果として、マッチング手順で100%は必要ありません。でも、できるだけ高いレートにしたいです。何かアドバイス?