R でエンティティ抽出に取り組んでいます。andフィールドがUniqueID
ありText
ます。テキスト フィールドから位置情報を抽出する必要があります。私のテキストフィールドには場所名の説明があります
text <- c("SERANGOON JC","Blk 4","SHELL TAMPINES AVE 4","SENOKO INDUSTRIAL ESTATE","Senoko Estate","Senoko","senok Est.")
Locations のリストがあります。
Loc <- c("SERANGOON JUNIOR COLLEGE","Block 4","SHELL TAMPINES AVENUE 4","SENOKO INDUSTRIAL ESTATE")
を一致させ、フィールドloc
からそれらの場所を抽出する必要がtext
あります。テキスト フィールドSENOKO INDUSTRIAL ESTATE
では、さまざまな方法で綴られているSenoko Estate
か、Senoko
(半分の名前) またはスペルミスsenok Est.
があります。上記のすべてのスペルミスと半分スペルの単語について - 正確な名前を取得する必要がありますloc
すなわちから。SENOKO INDUSTRIAL ESTATE
.
私の出力は次のようになります。
ID Location
123 SERANGOON JUNIOR COLLEGE|Block 4|SHELL TAMPINES AVENUE 4|SENOKO INDUSTRIAL ESTATE|SENOKO INDUSTRIAL ESTATE|SENOKO INDUSTRIAL ESTATE|SENOKO INDUSTRIAL ESTATE