python - Python Web クローラー

Question

ex の Web ページからすべてのデータを引き出す Python クローラーはありますか? %29/4980512.p?id=1218587135819&skuId=4980512&contract_desc= このページには、カスタマーレビューに 1 と 2 の 2 つのページがあります。彼の URL をクロールして、両方のページのコンテンツを取得したいと考えています。これはpythonクローラーで可能ですか？

また、pythonクローラーはすべての最新のGET / POSTテクノロジーをサポートしていますか

score 12 · Accepted Answer

Scrapyを使用できます:

Scrapy は、高速で高レベルのスクリーンスクレイピングおよび Web クローリングフレームワークであり、Web サイトをクロールし、そのページから構造化データを抽出するために使用されます。データマイニングからモニタリング、自動テストまで幅広い用途に使用できます。

score 3 · Accepted Answer

サイトをクロールする場合は、この投稿を参照してください。一部のページのみを処理してそのコンテンツを分析する場合（つまり、処理するURLがわかっている場合）、BeautifulSoupを試してください。次のようなことができます。

page = urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
for f in soup.findAll('form'):
    target_url = f['action']
    #do something with each one of the forms

python - Python Web クローラー

2 に答える 2

Related

Reference