9

いくつかの文字が一部の文字で強調表示され、他の文字では強調表示されていないことを除いて、ほとんど同じように見えるいくつかの表をまとめています。たとえば、"André" は "Andre"、"Flávio"、"Flavio" などと読み取られることがあります。すべてのバリエーションを等しいと見なす必要がありますが、unique() はそれらを異なるものと見なします。アクセント付きをすべてアクセントなしに変更してから、unique() を使用することを考えましたが、別のより高速なオプションがあるのではないかと考えました。

後で == を使用して同じアクセントを区別しない比較を行う必要があるため、各テーブルのコピーからすべてのアクセントを削除し、コピーで比較を行うことを考えています。別のより良いアプローチがあれば教えてください。

4

1 に答える 1

6

比較の前にアクセントを削除するアプローチは、目的に適しているようです。このような機能はフラグiconv付きで存在することに注意してくださいTRANSLIT

iconv(c("André","Flávio"),to='ASCII//TRANSLIT')
#> [1] "Andre"  "Flavio"
于 2015-08-12T19:11:32.897 に答える