r - unique() と == を使用して、アクセント付きの文字とアクセントのない文字を照合する

Question

いくつかの文字が一部の文字で強調表示され、他の文字では強調表示されていないことを除いて、ほとんど同じように見えるいくつかの表をまとめています。たとえば、"André" は "Andre"、"Flávio"、"Flavio" などと読み取られることがあります。すべてのバリエーションを等しいと見なす必要がありますが、unique() はそれらを異なるものと見なします。アクセント付きをすべてアクセントなしに変更してから、unique() を使用することを考えましたが、別のより高速なオプションがあるのではないかと考えました。

後で == を使用して同じアクセントを区別しない比較を行う必要があるため、各テーブルのコピーからすべてのアクセントを削除し、コピーで比較を行うことを考えています。別のより良いアプローチがあれば教えてください。

score 6 · Accepted Answer

比較の前にアクセントを削除するアプローチは、目的に適しているようです。このような機能はフラグiconv付きで存在することに注意してくださいTRANSLIT

iconv(c("André","Flávio"),to='ASCII//TRANSLIT')
#> [1] "Andre"  "Flavio"

r - unique() と == を使用して、アクセント付きの文字とアクセントのない文字を照合する

1 に答える 1

Related

Reference