私は nokogiri を使用して html ページをスクラップします。タスクの作成が初めてのように、スクレイピングは初めてです。必要に応じて変更できると思われるチュートリアルをいくつか見つけましたが、機能させることができません。
これは、html を破棄するために使用する ruby コードです。ruby コンソールで実行すると問題なく動作しますが、次のすべてのフィールドを含む新しいレコードを作成する必要があります。
require 'rubygems'
require 'mechanize'
#require 'pp'
a = Mechanize.new { |agent|
agent.user_agent_alias = 'Mac Safari'
}
a.get('http://ted.europa.eu/udl?uri=TED:NOTICE:143331-2012:DATA:EN:HTML&tabId=3') do |page|
title = page.search('table').search('tr')[0].search('td').map{ |n| n.text }
doc_nr = page.search('table').search('tr')[1].search('td').map{ |n| n.text }
pub_date = page.search('table').search('tr')[2].search('td').map{ |n| n.text }
puts "#{title} - #{doc_nr} - #{pub_date}"
end
これについて完全な回答が得られれば素晴らしいと思いますが、チュートリアルや wiki への適切なリンクもいくつかあります。どうぞよろしくお願いいたします。