-4

ex の Web ページからすべてのデータを引き出す Python クローラーはありますか? %29/4980512.p?id=1218587135819&skuId=4980512&contract_desc= このページには、カスタマー レビューに 1 と 2 の 2 つのページがあります。彼の URL をクロールして、両方のページのコンテンツを取得したいと考えています。これはpythonクローラーで可能ですか?

また、pythonクローラーはすべての最新のGET / POSTテクノロジーをサポートしていますか

4

2 に答える 2

12

Scrapyを使用できます:

Scrapy は、高速で高レベルのスクリーン スクレイピングおよび Web クローリング フレームワークであり、Web サイトをクロールし、そのページから構造化データを抽出するために使用されます。データマイニングからモニタリング、自動テストまで幅広い用途に使用できます。

于 2012-07-26T13:32:00.637 に答える
3

サイトをクロールする場合は、この投稿を参照してください。一部のページのみを処理してそのコンテンツを分析する場合(つまり、処理するURLがわかっている場合)、BeautifulSoupを試してください。次のようなことができます。

page = urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
for f in soup.findAll('form'):
    target_url = f['action']
    #do something with each one of the forms
于 2012-07-26T14:47:48.627 に答える