r - Rを使用して1日で4つのURLを使用してオフサイトでデータをスクレイピングする

Question

以下のように、すべてのステーションのデータが 1 日あたり 4 つの時間リンクに分割されているマレーシア環境省のサイトから、すべての過去の大気汚染指数データをスクレイピングしようとしています。

http://apims.doe.gov.my/apims/hourly1.php?date=20130701 http://apims.doe.gov.my/apims/hourly2.php?date=20130701

上記と同じ「hourly3.php?」と「hourly4.php?」

私はRに少し慣れているだけなので、おそらくXMLまたはscrapeRライブラリを使用してこれを行う最も簡単な方法は何でしょうか?

score 0 · Accepted Answer

RreadHTMLTable関数を使用して、上記で指定したマレーシアの DOE URL から HTML テーブルを抽出できます。例として最初の URL を取り上げます。

# Make sure you have the XML package installed
library(XML)
url <- "http://apims.doe.gov.my/apims/hourly1.php?date=20130701"
all.tables <- readHTMLTable(url)
# the URL you gave only has one <table> tag
table <- all.tables[[1]]
# and now you have a data frame 'table' which contains the contents
# of the air pollutant table

r - Rを使用して1日で4つのURLを使用してオフサイトでデータをスクレイピングする

2 に答える 2

Related

Reference