このようなWebページhttp://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.htmlをスクレイプしようとしていますが、次のコードを使用すると、HTMLが不適切であることを示すエラーが表示されます。
library(RCurl)
library(XML)
weather <- getURL("http://www.weatheroffice.gc.ca/city/pages/on-135_metric_e.html")
doc <- htmlParse(weather)
Internet Explorerとパッケージを使用して、不適切に形成されたHTMLを修正し、それをパーサーにフィードする方法を示すこの投稿を見ました。rcom
ただし、問題のHTMLはhttp://validator.w3.orgでの検証に合格しています。
XMLパッケージでこのようなHTML解析関連のエラーを処理する方法は他にありますか?