1

R でエンティティ抽出に取り組んでいます。andフィールドがUniqueIDありTextます。テキスト フィールドから位置情報を抽出する必要があります。私のテキストフィールドには場所名の説明があります

text <- c("SERANGOON JC","Blk 4","SHELL TAMPINES AVE  4","SENOKO INDUSTRIAL ESTATE","Senoko Estate","Senoko","senok Est.") 

Locations のリストがあります。

Loc <- c("SERANGOON JUNIOR COLLEGE","Block 4","SHELL TAMPINES AVENUE 4","SENOKO INDUSTRIAL ESTATE")

を一致させ、フィールドlocからそれらの場所を抽出する必要がtextあります。テキスト フィールドSENOKO INDUSTRIAL ESTATEでは、さまざまな方法で綴られているSenoko Estateか、Senoko(半分の名前) またはスペルミスsenok Est.があります。上記のすべてのスペルミスと半分スペルの単語について - 正確な名前を取得する必要がありますlocすなわちから。SENOKO INDUSTRIAL ESTATE.

私の出力は次のようになります。

ID   Location
123  SERANGOON JUNIOR COLLEGE|Block 4|SHELL TAMPINES AVENUE 4|SENOKO INDUSTRIAL ESTATE|SENOKO INDUSTRIAL ESTATE|SENOKO INDUSTRIAL ESTATE|SENOKO INDUSTRIAL ESTATE
4

1 に答える 1