r - r での名前の照合とスペルミスの修正

翻译自：https://stackoverflow.com/questions/66730370 2021-03-21T08:48:43.997

52 次

商品コードとその説明で構成される数百万行の巨大なデータテーブルがあります。(コードと説明の組み合わせに基づいて) 各グループにカテゴリを割り当てたいと考えています。問題は、説明がさまざまな方法で綴られていることです。類似した名前をすべて 1 つの名前に変換したいと考えています。以下に例を示します。

ibrary(data.table)
dt <- data.table(code = c(rep(1,2),rep(2,2),rep(3,2)), name = c('McDonalds','Mc 
Dnald','Macys','macy','Comcast','Com-cats'))
dt[,cat:='NA']
setkeyv(dt,c('code','name'))
dt[.(1,'McDonalds'),cat:='Restaurant']
dt[.(1,'Mc Dnald'),cat:='Restaurant']
dt[.(1,'Macys'),cat:='Department Store']

もちろん、実際のケースでは、同じ単語を参照するすべてのスペルを調べて手動で修正することは不可能です。類似した単語をすべて検出し、それらを単一の (正しい) スペルに変換する方法はありますか?

前もって感謝します

r - r での名前の照合とスペル ミスの修正

0 に答える 0

Related

Reference

r - r での名前の照合とスペルミスの修正