1

私は検索してきましたが、これを洗練された方法で行う方法が見つかりませんでした。

一意のIDSが2列あります。Aの各aについて、Bで最も近い上位10個の一致を見つけたいと思います。

私のバックアップ計画は、レーベンシュタインを使用して反復することです...しかし、Refineには非常に優れた反復面があり、さらに多くのアルゴリズムが実装されているため、それを使用して作業の一部を実行できることを望んでいました。

または、これを行うための別のツールはありますか?

4

1 に答える 1

1

Refine のクラスタリング インターフェースから、フィンガープリントや ngramFingerprint ( source ) などのクラスタリング アルゴリズムを使用できることをご存知ですか?

IDS フィールドを使用して、次の式でこの列に基づいて新しい列を作成します: ngramFingerprint(value)

この新しい列で他のデータ セットと交差できるようになりました。これは、より多くの一致を取得するのに役立つ場合があります。

于 2013-04-06T18:06:51.490 に答える