r - RでWebスクレイピングの特殊記号を変換するには?

Question

XMLおよびパッケージを使用して Web をスクレイピングする方法を学んでいRCurlます。1つのことを除いて、すべてがうまくいきます。ö や č などの特殊文字は、R では異なる方法で読み込まれます。たとえば、í は ÃƒÂ として読み込まれます。後者は、最初の HTML コーディングのようなものだと思います。

これらの文字を変換する方法を探していましたが、見つかりませんでした。他の人もこの問題に出くわしたと確信しており、これらの文字を変換する何らかの関数が必要だと思います。誰かが解決策を知っていますか？前もって感謝します。

コードの例を次に示します。申し訳ありませんが、以前に提供しませんでした。

library(XML)
url <-   'http://en.wikipedia.org/wiki/2000_Wimbledon_Championships_%E2%80%93_Men%27s_Singles'
tables <- readHTMLTable(url)
Sec <- tables[[6]]
pl1R1 <- unlist(strsplit(as.character(Sec[,2]), ' '))[seq(2,32, 4)]
enc2utf8(pl1R1) # does not seem to work

score 0 · Accepted Answer

エンコーディングを指定しながら最初に解析してから、次のようにテーブルを読み取ってみてください: readHTMLTable and UTF-8 encoding。

例は次のとおりです。

library(XML)
url <- "http://en.wikipedia.org/wiki/2000_Wimbledon_Championships_%E2%80%93_Men%27s_Singles"
doc <- htmlParse(url, encoding = "UTF-8") #this will preserve characters
tables <- as.data.frame(readHTMLTable(doc, stringsAsFactors = FALSE))
Sec <- tables[[6]]
#not sure what you're trying to do here though
pl1R1 <- unlist(strsplit(as.character(Sec[,2]), ' '))[seq(2,32, 4)]

r - RでWebスクレイピングの特殊記号を変換するには?

1 に答える 1

Related

Reference