私はRuby を使用して簡単な Web クロールを行っていますopen-uri
。nokogiri
完全に読み込まれる前に html が読み込まれることがあるという問題が 1 つあります。このような場合、読み込みアイコンとナビゲーション バー以外のコンテンツを取得できません。open-uri
ページが完全にロードされるまでどのように通知またはnokogiri
待機するのが最善ですか?
現在、私のスクリプトは次のようになっています。
require 'nokogiri'
require 'open-uri'
url = "https://www.the-page-i-wanna-crawl.com"
doc = Nokogiri::HTML(open(url, ssl_verify_mode: OpenSSL::SSL::VERIFY_NONE))
puts doc.at_css("h2").text