Open Refine を使用して、シート (.csv) 内のいくつかのアドレスをクリーンアップしています。列内の完全一致をクラスター化するにはどうすればよいですか? クラスタリング アルゴリズムは、数が異なるだけでほぼ類似したアドレスをクラスタ化するようです。例えば:
56, LORONG RENGAS, SELANGOR
76, LORONG RENGAS, SELANGOR
90, LORONG RENGAS, SELANGOR
76, lorong rengas, selangor
56, LORONG RENGAS, SELANGOR
OpenRefine を使用してこれらのアドレスを完全一致に従ってクラスター化するにはどうすればよいですか? 質問はばかげているように聞こえますが、私はこのことに頭を悩ませています。
ありがとう