google-refine - グーグルリファイン：ファセットツールを使用して、2つの列間のマップを推測します

Question

私は検索してきましたが、これを洗練された方法で行う方法が見つかりませんでした。

一意のIDSが2列あります。Aの各aについて、Bで最も近い上位10個の一致を見つけたいと思います。

私のバックアップ計画は、レーベンシュタインを使用して反復することです...しかし、Refineには非常に優れた反復面があり、さらに多くのアルゴリズムが実装されているため、それを使用して作業の一部を実行できることを望んでいました。

または、これを行うための別のツールはありますか？

score 1 · Accepted Answer

Refine のクラスタリングインターフェースから、フィンガープリントや ngramFingerprint ( source ) などのクラスタリングアルゴリズムを使用できることをご存知ですか?

IDS フィールドを使用して、次の式でこの列に基づいて新しい列を作成します: ngramFingerprint(value)

この新しい列で他のデータセットと交差できるようになりました。これは、より多くの一致を取得するのに役立つ場合があります。

1 に答える 1