XML
およびパッケージを使用して Web をスクレイピングする方法を学んでいRCurl
ます。1つのことを除いて、すべてがうまくいきます。ö や č などの特殊文字は、R では異なる方法で読み込まれます。たとえば、í は àとして読み込まれます。後者は、最初の HTML コーディングのようなものだと思います。
これらの文字を変換する方法を探していましたが、見つかりませんでした。他の人もこの問題に出くわしたと確信しており、これらの文字を変換する何らかの関数が必要だと思います。誰かが解決策を知っていますか?前もって感謝します。
コードの例を次に示します。申し訳ありませんが、以前に提供しませんでした。
library(XML)
url <- 'http://en.wikipedia.org/wiki/2000_Wimbledon_Championships_%E2%80%93_Men%27s_Singles'
tables <- readHTMLTable(url)
Sec <- tables[[6]]
pl1R1 <- unlist(strsplit(as.character(Sec[,2]), ' '))[seq(2,32, 4)]
enc2utf8(pl1R1) # does not seem to work