ウェブサイトからいくつかの情報を抽出しようとしています
library(rvest)
library(XML)
url <- "http://wiadomosci.onet.pl/wybory-prezydenckie/xcnpc"
html <- html(url)
nodes <- html_nodes(html, ".listItemSolr")
nodes
HTML コードの 30 パーツの「リスト」を取得します。「リスト」の各要素から最後のhref属性を抽出したいので、30.要素の場合は
<a href="http://wiadomosci.onet.pl/kraj/w-sobote-prezentacja-hasla-i-programu-wyborczego-komorowskiego/tvgcq" title="W sobotę prezentacja hasła i programu wyborczego Komorowskiego">
文字列を取得したい
"http://wiadomosci.onet.pl/kraj/w-sobote-prezentacja-hasla-i-programu-wyborczego-komorowskiego/tvgcq"
問題はhtml_attr(nodes, "href")
機能しません (NA のベクトルを取得します)。だから私は正規表現について考えましたが、問題はnodes
文字リストではないということです。
class(nodes)
[1] "XMLNodeSet"
私は試した
xmlToList(nodes)
しかし、それも機能しません。
私の質問は、HTML用に作成された関数でこのURLを抽出するにはどうすればよいですか? または、XMLNodeSet を文字リストに変換できない場合はどうすればよいですか?