2

htmlParse をヘブライ語でうまく動作させたいと思っていますが、フィードしたページのヘブライ語のテキストをスクランブルし続けます。

例えば:

# why can't I parse the Hebrew correctly?
library(RCurl)
library(XML)
u = "http://humus101.com/?p=2737"
a = getURL(u) 
a # Here - the hebrew is fine.
a2 <- htmlParse(a)
a2 # Here it is a mess...

これらのどれもそれを修正していないようです:

htmlParse(a, encoding = "utf-8")
htmlParse(a, encoding = "iso8859-8")

これは私のロケールです:

> Sys.getlocale()
[1] "LC_COLLATE=Hebrew_Israel.1255;LC_CTYPE=Hebrew_Israel.1255;LC_MONETARY=Hebrew_Israel.1255;LC_NUMERIC=C;LC_TIME=Hebrew_Israel.1255"
> 

助言がありますか?

4

1 に答える 1