Hpricotの下で、いわばすべてのHtmlをスクレイピングしていないことがわかっているという問題を解決するために、大量のチュートリアルを読みました。詳しく説明します:
私がhtmlを削り取ろうとしているウェブサイトはhttp://yellowpages.com.mt/Malta-Search/Radio-In-Malta-Gozo.aspx
.
結果としてリストされているリンクを取得する必要があります(前述のサイトの可能なすべてのURLに対してこれを行う必要があるため、RSSなどは、プログラムがURLを指定してオンザフライで読み取る必要があるため、有益ではありません食べます。)
私は必要な特定のIDを引き出すためにあらゆることを試みました(直接XPATHなどを与えます)が、そうすると気づきました
doc = Hpricot(open("http://yellowpages.com.mt/Malta-Search/Radio-In-Malta-Gozo.aspx", 'User-Agent'=>'ruby')) str = doc puts str
提供された結果には、必要なリンクに関連するすべての html が含まれていません。したがって、どの方法を使用してスクレイピングしても、hpricotによると必要な要素が存在しないため、必要な要素が見つかりません。
Firefox でソースコードを表示すると、それらが表示されるので、非常に混乱しています。この問題を回避する方法を知っている人はいますか? 私は何年もの間自分の道を見つけようとしてきましたが、一人では解決策を見つけることができません! どんな助けでも大歓迎です