1

私は2つのデータベースを持っておりabその中に科学論文のタイトルがあります。それらのデータベースを1つのデータベースにマージしたいと思いますc

  • a含まれていないタイトルが含まれている可能性がbあり、その逆も可能です。
  • タイトルがデータベースaとの両方にある可能性がありますb
  • 文字と句読点の大文字と小文字が一致しない可能性があります。
    • 「これはタイトルです。」VS. 「これはタイトルです」
    • 「これは-さらに別の-タイトルです。」VS. 「これはまた別のタイトルです」
    • 「blaに基づくk-meanアルゴリズム。」VS「blaに基づくk平均アルゴリズム」

最初に、MySQL内でlevenstein距離関数を使用して、両方のデータベースの同じタイトルに一致させることを考えましたが、何百万もの行を見ると、これで十分に機能するかどうかわかりません。次に、タイトルと一致する全文検索を考えましたが、私が知る限り、全文検索は一般的な単語と一致しないため、実際には異なる類似のタイトルでは一致がうまく機能しません。

結果として、マッチング手順で100%は必要ありません。でも、できるだけ高いレートにしたいです。何かアドバイス?

4

1 に答える 1

1

頭に浮かぶアイデアの1つは、句読点を含まない小文字のテキストを含む検索列を作成し、それを比較することです。

mySQLに関連して他の言語またはプラットフォームを使用している場合は、そこで正規化を行うのが最も簡単な場合があります。句読点などを削除するネイティブのmySQL関数は考えられません。それは確かに可能ですが、恐らく非常に複雑な一連の呼び出しを使用するだけかもしれませんREPLACE()

于 2011-08-06T18:16:02.433 に答える