2

私はデータセンターからデータを受け取りました。データをクレンジングして有用なものにする必要があります。私の最大の問題は、1 つの列を「service_description」と呼ぶことです。たとえば、データセンターが美容院に属している場合、この列は手動で入力され (テキスト ボックス)、膨大な量のデータ (数十億) が含まれています。ここに小さなサンプルがあります

service description

washed the haair 
hair washed and dried
used shampoo on har
nails manicure
nail paint
nail pant
paint the nails

私がする必要があるのは、各行を分析して特定のカテゴリを与えるスクリプトを台無しにして、各カテゴリをまとめることです。たとえば、髪の毛は最初の 3 行のカテゴリになる可能性があります。 、カテゴリの単語のつづりが間違っている可能性があることを考慮して。

結果

service description          possible categories

washed the haair                       hair
hair washed and dried                  hair
used shampoo on har                    hair
nails manicure                         nail
nail paint                             nail
nail pant                              nail
paint the nails                        nail
4

1 に答える 1

0

あなたのカテゴリは固定ルックアップであると想定しています。文字列を空白で分割します。各パーツについて、カテゴリ ルックアップのすべてのアイテムを調べて、レーベンシュタイン距離が最小のものを選択します。

参考文献:

http://en.wikipedia.org/wiki/Levenshtein_distance

http://www.codeproject.com/Articles/13525/Fast-memory-effective-Levenshtein-algorithm

于 2013-06-11T11:50:20.753 に答える