ruby - rake タスクとスクレイピング html からの ruby コードを使用してレコードを作成する

翻译自：https://stackoverflow.com/questions/10490747 2012-05-07T23:59:01.723

131 次

私は nokogiri を使用して html ページをスクラップします。タスクの作成が初めてのように、スクレイピングは初めてです。必要に応じて変更できると思われるチュートリアルをいくつか見つけましたが、機能させることができません。

これは、html を破棄するために使用する ruby コードです。ruby コンソールで実行すると問題なく動作しますが、次のすべてのフィールドを含む新しいレコードを作成する必要があります。

require 'rubygems'
require 'mechanize'
#require 'pp'

a = Mechanize.new { |agent|
  agent.user_agent_alias = 'Mac Safari'
}

a.get('http://ted.europa.eu/udl?uri=TED:NOTICE:143331-2012:DATA:EN:HTML&tabId=3') do |page|
  title             = page.search('table').search('tr')[0].search('td').map{ |n| n.text }
  doc_nr            = page.search('table').search('tr')[1].search('td').map{ |n| n.text }
  pub_date          = page.search('table').search('tr')[2].search('td').map{ |n| n.text }

  puts "#{title} - #{doc_nr} - #{pub_date}"
end

これについて完全な回答が得られれば素晴らしいと思いますが、チュートリアルや wiki への適切なリンクもいくつかあります。どうぞよろしくお願いいたします。

ruby - rake タスクとスクレイピング html からの ruby​​ コードを使用してレコードを作成する

1 に答える 1

Related

Reference

ruby - rake タスクとスクレイピング html からの ruby コードを使用してレコードを作成する