html - href 属性の抽出またはノードから文字リストへの変換

翻译自：https://stackoverflow.com/questions/29042027 2015-03-13T21:12:03.080

2514 次

ウェブサイトからいくつかの情報を抽出しようとしています

library(rvest)
library(XML)
url <- "http://wiadomosci.onet.pl/wybory-prezydenckie/xcnpc"
html <- html(url)

nodes <- html_nodes(html, ".listItemSolr") 
nodes

HTML コードの 30 パーツの「リスト」を取得します。「リスト」の各要素から最後のhref属性を抽出したいので、30.要素の場合は

<a href="http://wiadomosci.onet.pl/kraj/w-sobote-prezentacja-hasla-i-programu-wyborczego-komorowskiego/tvgcq" title="W sobotę prezentacja hasła i programu wyborczego Komorowskiego">

文字列を取得したい

"http://wiadomosci.onet.pl/kraj/w-sobote-prezentacja-hasla-i-programu-wyborczego-komorowskiego/tvgcq"

問題はhtml_attr(nodes, "href")機能しません (NA のベクトルを取得します)。だから私は正規表現について考えましたが、問題はnodes文字リストではないということです。

class(nodes)
[1] "XMLNodeSet"

私は試した

xmlToList(nodes)

しかし、それも機能しません。

私の質問は、HTML用に作成された関数でこのURLを抽出するにはどうすればよいですか? または、XMLNodeSet を文字リストに変換できない場合はどうすればよいですか?

2 に答える 2

html - CSS で HTML ニュースレターを送信する

c - 無限大 = 0x3f3f3f3f はなぜですか?

javascript - フォントサイズの調整 - 固定幅または流体？

node.js - トランザクションを持つ Nodejs 非同期モジュール

python - マルチプロセッシングスレッドの TypeError Python/ encoding

c# - asp.net mvc4 での検索

javascript - Ember.js & QUnit: "TypeError: オブジェクト #

html - href 属性の抽出またはノードから文字リストへの変換

2 に答える 2

Related

Reference