フォーラムからデータを抽出しています。に基づく私のスクリプトは正常に動作しています。ここで、単一の投稿から日付と時刻 (2009 年 12 月 21 日 20:39) を抽出する必要があります。私はそれを働かせることができません。FireXPath を使用して xpath を特定しました。
サンプルコード:
require 'rubygems'
require 'mechanize'
post_agent = WWW::Mechanize.new
post_page = post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')
puts post_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div[2]/text()').to_s.strip
puts post_page.parser.at_xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div[2]/text()').to_s.strip
puts post_page.parser.xpath('//[@id="post1960370"]/tbody/tr[1]/td/div[2]/text()')
私の試みはすべて空の文字列またはエラーで終了します。
Mechanize 内で Nokogiri を使用する方法に関するドキュメントが見つかりません。Mechanize のドキュメントには、ページの下部に次のように記載されています。
Mechanize を使用してスクレイピングする必要があるページに移動した後、Nokogiri メソッドを使用してスクレイピングします。
しかし、どのような方法ですか?サンプルと説明された構文でそれらについてどこで読むことができますか? Nokogiri のサイトでも何も見つかりませんでした。