私は検索してきましたが、これを洗練された方法で行う方法が見つかりませんでした。
一意のIDSが2列あります。Aの各aについて、Bで最も近い上位10個の一致を見つけたいと思います。
私のバックアップ計画は、レーベンシュタインを使用して反復することです...しかし、Refineには非常に優れた反復面があり、さらに多くのアルゴリズムが実装されているため、それを使用して作業の一部を実行できることを望んでいました。
または、これを行うための別のツールはありますか?
私は検索してきましたが、これを洗練された方法で行う方法が見つかりませんでした。
一意のIDSが2列あります。Aの各aについて、Bで最も近い上位10個の一致を見つけたいと思います。
私のバックアップ計画は、レーベンシュタインを使用して反復することです...しかし、Refineには非常に優れた反復面があり、さらに多くのアルゴリズムが実装されているため、それを使用して作業の一部を実行できることを望んでいました。
または、これを行うための別のツールはありますか?
Refine のクラスタリング インターフェースから、フィンガープリントや ngramFingerprint ( source ) などのクラスタリング アルゴリズムを使用できることをご存知ですか?
IDS フィールドを使用して、次の式でこの列に基づいて新しい列を作成します: ngramFingerprint(value)
この新しい列で他のデータ セットと交差できるようになりました。これは、より多くの一致を取得するのに役立つ場合があります。