-2

以下のように、すべてのステーションのデータが 1 日あたり 4 つの時間リンクに分割されているマレーシア環境省のサイトから、すべての過去の大気汚染指数データをスクレイピングしようとしています。

http://apims.doe.gov.my/apims/hourly1.php?date=20130701 http://apims.doe.gov.my/apims/hourly2.php?date=20130701

上記と同じ「hourly3.php?」と「hourly4.php?」

私はRに少し慣れているだけなので、おそらくXMLまたはscrapeRライブラリを使用してこれを行う最も簡単な方法は何でしょうか?

4

2 に答える 2

0

RreadHTMLTable関数を使用して、上記で指定したマレーシアの DOE URL から HTML テーブルを抽出できます。例として最初の URL を取り上げます。

# Make sure you have the XML package installed
library(XML)
url <- "http://apims.doe.gov.my/apims/hourly1.php?date=20130701"
all.tables <- readHTMLTable(url)
# the URL you gave only has one <table> tag
table <- all.tables[[1]]
# and now you have a data frame 'table' which contains the contents
# of the air pollutant table
于 2015-03-03T03:05:18.300 に答える