html - HTML ページ全体をダウンロードしますか?

Question

スクリーンスクレイパーを作成しようとしていますが、Web サイトのメインページをダウンロードしたいと考えています。

ブラウザーでページのソースを表示したときに表示される HTML コード全体を取得できません。ブラウザでソースを表示したときに、表示されるすべてをロードしていることを確認するにはどうすればよいですか?

# Required Gems
require 'rubygems' # Loads gems
require "nokogiri" # Nokogiri
require "open-uri" # For Nokogiri
require "chronic" # For time parsing
require "cgi" # For parsing urls
require 'net/http' # For image downloading


URL = URI.parse("http://www.gocrimson.com/landing/index")

hBOList = Nokogiri::HTML(open(URL))

score 3 · Accepted Answer

元の要求されたページがロードされた後、ページのチャンクをロードするために Ajax が使用されているため、ソースのブラウザのビューは、要求された HTML ファイル自体と必ずしも一致しません。

ページが JavaScript と Ajax を使用している場合、通常の方法を使用してページのソースを取得することはできません。ただし、コンテンツロードのチェーン全体をデコードし、Ruby コードで再作成する必要があります。

または、Ruby が対話できるブラウザーを使用して、最初のページを読み込むように指示すると、ブラウザーで JavaScript のアクションがトリガーされ、ブラウザーが追加のコンテンツを読み込み、コードでそれを抽出して、必要な処理を実行できます。 . そのためには、Watirまたはその派生物の 1 つを調べる必要があります。

score 0 · Accepted Answer

行う:

require 'open-uri'
File.open("page_test.txt","w"){|f| f << open("http://www.gocrimson.com/landing/index").read}

目的のページのコンテンツ全体をコピーしますか? もしそうなら、Nokogiri がどこかに何かをドロップしたり、ページのレンダリング後に JavaScript を介して何かをロードしたりしています。

score 0 · Accepted Answer

Hisako と redcup は、Tin Man が上で提案したように、watir を試す必要があります。何かのようなもの：

require 'rubygems'
require 'watir-webdriver'

browser = Watir::Browser.new
browser.goto "http://www.gocrimson.com/landing/index"

puts browser.html

やりたいことをやればいい。

score 0 · Accepted Answer

一部のコンテンツは、ボタンのクリック時または何らかのアクションの後に ajax 呼び出しによって読み込まれると思います。必要なものと、これを行うアクションがわかっている場合。次に、機械化が表示されます。Mechanize は内部で Nokogiri を使用しており、何らかのアクションが必要なページの読み込みに役立ちます。

html - HTML ページ全体をダウンロードしますか?

4 に答える 4

Related

Reference