リファレンスページ:http ://www.ncbi.nlm.nih.gov/pubmed/?term = NS044283 [GR]&dispmax = 200&report = xml
<pre>
XMLは、返されたHTMLページのタグの下に埋め込まれます。タグの内容を抽出すること<pre>
はできますが、これをXMLに正しく変換できません。NodeSetクラスのメソッドを使用してみましたto_xml
が、行末(\n
)が解析を台無しにしているようです。
これが私のコードの抜粋です:
url = "http://www.ncbi.nlm.nih.gov/pubmed/?term=NS044283[GR]&dispmax=200&report=xml"
doc = Nokogiri::XML(open(url))
pre = doc.xpath('//pre')
xml = pre.to_xml
contents = Nokogiri::XML(xml)
articles = contents.xpath('\\PubmedArticle')
(article = [])