html - Hpricot (Ruby on Rails) を使用して非表示の HTML (表示 = false の場合) をスクレイピングする

Question

残念ながら、私は超えることができないように見える問題に遭遇しました。残念ながら、私はRuby on Railsの新生児でもあるため、質問の数が多くなります

次のような Web ページをスクレイピングしようとしています。

http://www.yellowpages.com.mt/Malta/Grocers-Mini-Markets-Retail-In-Malta-Gozo.aspx

次のページの住所、電話番号、URL をスクレイピングしたいと思います。この場合は

http://www.yellowpages.com.mt/Malta/Grocers-Mini-Markets-Retail-In-Malta-Gozo+Ismol.aspx

考えられることは何でも試してみましたが、見えないように設定されているため、何も機能していないようです。

アドレスはh3タグ内にありますが、スクラップ可能ではないようです。次の URL から ScRUBYt についても調べてみましたがhttp://www.rubyrailways.com/ajax-scraping-with-scrubyt-linkedin-google-analytics-yahoo-suggestions/、この場合の適用方法の表と裏を見つけることができないようです。

これは私の任務を前進させるために本当に乗り越える必要がある障害であるため、どんな指針も本当に感謝しています. 助けてくれてありがとう。

score 1 · Accepted Answer

あなたが与えた特定の例では、要素は隠されていませんが、ページの読み込み後に ajax を介して読み込まれます。したがって、基本的に必要なのは、これらのアドレスやその他のコンテンツを表示するために javascript (Web ブラウザー?) を実行できる http クライアントです。

プロセスを本当に自動化し、ajax または javascript を介して取得したデータをスクレイピングしたい場合は、seleniumを試すことができます。その目的のために開発されたわけではありませんが、ニーズに応えます。

score 0 · Accepted Answer

あなたの特定の質問に対する答えはありませんが、Ruby を使用したスクリーンスクレイピングに関する Ryan Bates の Railscast エピソードを紹介したいと思います: http://railscasts.com/episodes/173-screen-scraping-with-scrapi

彼は、ScRUBYt を動作させることができなかったため、ScRUBYt の代わりに scrAPI というライブラリーを使用しています。scrAPI のほうが少し簡単に思えますか?

これが少しでもお役に立てば幸いです。あなたの任務がうまくいきますように！:)

-ジョン

score -1 · Accepted Answer

google groupに良いスクリプトが投稿されています。アドレスなどを抽出しているようです。 script のコードを参照してくださいpage.txt。

html - Hpricot (Ruby on Rails) を使用して非表示の HTML (表示 = false の場合) をスクレイピングする

3 に答える 3

Related

Reference