0

このようなWebページhttp://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.htmlをスクレイプしようとしていますが、次のコードを使用すると、HTMLが不適切であることを示すエラーが表示されます。

library(RCurl)
library(XML)
weather <- getURL("http://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.html")
doc <- htmlParse(weather)

Internet Explorerとパッケージを使用して、不適切に形成されたHTMLを修正し、それをパーサーにフィードする方法を示すこの投稿を見ました。rcomただし、問題のHTMLはhttp://validator.w3.orgでの検証に合格しています。

XMLパッケージでこのようなHTML解析関連のエラーを処理する方法は他にありますか?

4

1 に答える 1

2

これを回転させて、それがあなたが求めているものを実行するかどうかを確認します。

library(RCurl)
library(XML)
url   <- "http://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.html"
doc   <- htmlTreeParse(url, useInternalNodes=TRUE)

また、次のリソースを確認することをお勧めします。

  1. Webスクレイピングに関するtalkstats.comスレッド(優れた初心者の例)
  2. htmlのものに関するw3schools.comサイト(非常に役立つ)
于 2012-07-29T00:11:03.490 に答える