asp.net - 表音を使用してテキストを標準化する

Question

私はデータセンターからデータを受け取りました。データをクレンジングして有用なものにする必要があります。私の最大の問題は、1 つの列を「service_description」と呼ぶことです。たとえば、データセンターが美容院に属している場合、この列は手動で入力され (テキストボックス)、膨大な量のデータ (数十億) が含まれています。ここに小さなサンプルがあります

service description

washed the haair 
hair washed and dried
used shampoo on har
nails manicure
nail paint
nail pant
paint the nails

私がする必要があるのは、各行を分析して特定のカテゴリを与えるスクリプトを台無しにして、各カテゴリをまとめることです。たとえば、髪の毛は最初の 3 行のカテゴリになる可能性があります。、カテゴリの単語のつづりが間違っている可能性があることを考慮して。

結果

service description          possible categories

washed the haair                       hair
hair washed and dried                  hair
used shampoo on har                    hair
nails manicure                         nail
nail paint                             nail
nail pant                              nail
paint the nails                        nail

score 0 · Accepted Answer

あなたのカテゴリは固定ルックアップであると想定しています。文字列を空白で分割します。各パーツについて、カテゴリルックアップのすべてのアイテムを調べて、レーベンシュタイン距離が最小のものを選択します。

参考文献:

http://en.wikipedia.org/wiki/Levenshtein_distance

http://www.codeproject.com/Articles/13525/Fast-memory-effective-Levenshtein-algorithm

asp.net - 表音を使用してテキストを標準化する

1 に答える 1

Related

Reference