0

同じテーブル内に非常によく似た行を持つデータベースがあります。これらの行は、列の値がほぼ等しいため、類似しています。これらの対応する行を1つの行に統合する必要があります。

たとえば、これら2つのユーザー(u1とu2)を統合する必要があります。

 u1 = User(name = "William Henry Gates III",
           age = 55,
           nationality = "american",
           alma_mater = "Harvard Univesity")

 u2 = User(name: "William Henry 'Bill' Gates III",
           age: 55,
           nationality: "America",
           alma_mater: "Harvard U.")

私はいくつかの編集距離ステミングテクニックを使用することを考えています。他のアルゴリズムとテクニックの提案?使用するのに役立つライブラリはありますか(できればPythonまたはJavaで)?

4

1 に答える 1

3

Refineのようなものを考えましたか?

于 2010-12-25T19:54:32.667 に答える