0

さまざまな大学に関するデータを収集していますが、次のコードを実行した後のフォロー エラーについて質問があります。問題は htmlParse() を使用する場合です

コード:

url1 <- "http://nces.ed.gov/collegenavigator/?id=165015"

webpage1<- getURL(url1)

doc1 <- htmlParse(webpage1)

出力:

htmlParse(webpage1) のエラー: ファイル

!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"

html xmlns="http://www.w3.org/1999/xhtml" head id="ctl00_hd"meta http-equiv="Content-type" content="text/html;charset=UTF-8" /title

    College Navigator - National Center for Education Statistics

/titlelink href="css/md0.css" type="text/css" rel="stylesheet" meta name="keywords" content="college navigator,college search,postsecondary education,postsecondary statistics,NCES,IPEDS,college locator "/meta meta name="description" content="College Navigator は、学生、保護者、高校のカウンセラーなどが、米国内の 7,000 以上の中等後教育機関に関する情報を入手できるように設計された無料の消費者向け情報ツールです。定着率と卒業率、価格、利用可能な援助、授与される学位、キャンパスの安全性、および認定."meta>meta name="robots" content="index,nofollow"/metalink

このパッケージを使用する前に Web でページをスクレイピングしましたが、問題はありませんでした。name="robots" はそれと何か関係がありますか? どんな助けでも大歓迎です。

4

1 に答える 1

1

http://validator.w3.org/check?verbose=1&uri=http%3A%2F%2Fnces.ed.gov%2Fcollegenavigator%2F%3Fid%3D165015 は、Web ページの形式が正しくないことを示します。ブラウザーはこれを補正できますが、R パッケージには問題があります。

Windows を使用している場合は、次のように IE ブラウザで修正できます。

library(rcom)
library(XML)
ie = comCreateObject('InternetExplorer.Application')
ie[["visible"]]=T # true for debugging
comInvoke(ie,"Navigate2","http://nces.ed.gov/collegenavigator/?id=165015")
while(comGetProperty(ie,"busy")||comGetProperty(ie,"ReadyState")<4){
 Sys.sleep(1)
 print(comGetProperty(ie,"ReadyState"))
}
myDoc<-comGetProperty(ie,"Document")
webpage1<-myDoc$getElementsByTagName('html')[[0]][['innerHTML']]
ie$Quit()
doc1 <- htmlParse(webpage1)
于 2012-06-08T22:25:40.380 に答える