私はデータセンターからデータを受け取りました。データをクレンジングして有用なものにする必要があります。私の最大の問題は、1 つの列を「service_description」と呼ぶことです。たとえば、データセンターが美容院に属している場合、この列は手動で入力され (テキスト ボックス)、膨大な量のデータ (数十億) が含まれています。ここに小さなサンプルがあります
service description
washed the haair
hair washed and dried
used shampoo on har
nails manicure
nail paint
nail pant
paint the nails
私がする必要があるのは、各行を分析して特定のカテゴリを与えるスクリプトを台無しにして、各カテゴリをまとめることです。たとえば、髪の毛は最初の 3 行のカテゴリになる可能性があります。 、カテゴリの単語のつづりが間違っている可能性があることを考慮して。
結果
service description possible categories
washed the haair hair
hair washed and dried hair
used shampoo on har hair
nails manicure nail
nail paint nail
nail pant nail
paint the nails nail