0

taobao.com から Web テキストを取得したい:

shop <- html('http://item.taobao.com/item.htm?spm=a230r.1.14.52.OizVF6&id=42200503654&ns=1&_u=n1b61flaa96&abbucket=7#detail',encoding="utf-8")

shop  %>% 
  html_node(".tb-main-title") %>%
  html_text() %>%
  as.character()

しかし、それは機能しません。結果は次のとおりです。

  \n     HM7000 钃濈墮鑰虫満 涓枃鎶\xa5 绔嬩綋澹\xb0 涓€鎷栦簩 鍚煶涔\x90\n   

ps: html 関数に encoding='utf-8' を追加してみます。

4

2 に答える 2

0

ターゲットページのページエンコーディングを見る

応答ヘッダー:

_Host:detail010236101060.unit.cm4
Age:1862
at_autype:5_100262977
at_cat:item_50005050
at_isb:0
at_itemId:42200503654
at_nick:guoy087
Cache-Control:max-age=3
Connection:keep-alive
Content-Encoding:gzip
Content-Language:zh-CN
Content-Type:text/html;charset=GBK <------ Encoding is GBK
Date:Fri, 27 Mar 2015 08:43:16 GMT
S:STATUS_NORMAL
Server:Tengine
Transfer-Encoding:chunked
Vary:Accept-Encoding
Via:wagbridge010238184034.cm4[0,200-0,H]
X-Cache:HIT TCP_MEM_HIT dirn:-2:-2
X-Category:/cat/50008090

UTF-8ページのエンコーディングが ではないことがわかります(ここでGBK説明します) 。

于 2015-03-27T08:48:01.057 に答える
0
html('http://item.taobao.com/item.htm?spm=a230r.1.14.52.OizVF6&id=42200503654&ns=1&_u=n1b61flaa96&abbucket=7#detail') %>% html_node(".tb-main-title") %>% html_text(encoding='utf-8')
于 2015-05-29T09:24:26.133 に答える