0

商品コードとその説明で構成される数百万行の巨大なデータ テーブルがあります。(コードと説明の組み合わせに基づいて) 各グループにカテゴリを割り当てたいと考えています。問題は、説明がさまざまな方法で綴られていることです。類似した名前をすべて 1 つの名前に変換したいと考えています。以下に例を示します。

ibrary(data.table)
dt <- data.table(code = c(rep(1,2),rep(2,2),rep(3,2)), name = c('McDonalds','Mc 
Dnald','Macys','macy','Comcast','Com-cats'))
dt[,cat:='NA']
setkeyv(dt,c('code','name'))
dt[.(1,'McDonalds'),cat:='Restaurant']
dt[.(1,'Mc Dnald'),cat:='Restaurant']
dt[.(1,'Macys'),cat:='Department Store']

もちろん、実際のケースでは、同じ単語を参照するすべてのスペルを調べて手動で修正することは不可能です。類似した単語をすべて検出し、それらを単一の (正しい) スペルに変換する方法はありますか?

前もって感謝します

4

0 に答える 0