こんにちは、R を使用してインターネットからデータをスクレイピングするのは初めてで、悲しいことに、HTML と XML についてはほとんど知りません。次の親ページで各ストーリー リンクをスクレイピングしようとしています: http://www.who.int/csr/don/archive/year/2013/en/index.html。親ページの他のリンクは気にしませんが、各記事の URL の行と、対応する URL、記事のタイトル、日付の列を含むテーブルを作成する必要があります (常に記事の先頭にあります)。ストーリーのタイトルに続く最初の文)、次にページの残りのテキスト (テキストのいくつかの段落になる場合があります)。
「周期表」とすべてのリンク(およびいくつかの関連するスレッド)の Wiki ページをスクレイピングするのコードを適応させようとしましたが、問題が発生しました。アドバイスや指針をいただければ幸いです。これが私がこれまでに試したことです(「?????」で問題が発生しました):
rm(list=ls())
library(XML)
library(plyr)
url = 'http://www.who.int/csr/don/archive/year/2013/en/index.html'
doc <- htmlParse(url)
links = getNodeSet(doc, ?????)
df = ldply(doc, function(x) {
text = xmlValue(x)
if (text=='') text=NULL
symbol = xmlGetAttr(x, '?????')
link = xmlGetAttr(x, 'href')
if (!is.null(text) & !is.null(symbol) & !is.null(link))
data.frame(symbol, text, link)
} )
df = head(df, ?????)