1

このページxxxからデータを収集したい

Python と BeautifulSoup の私の経験レベルは初心者です。ただし、以下で説明する問題を除いて、私がする必要があることのために非常に高度である必要はないと思います

データを収集する必要があるページには、MLS に掲載されているグレーター トロント エリアのアクティブな販売物件がリストされています。マップの右側には、データを取得するために選択する必要があるいくつかのチェックボックスがあり、これが私の問題です。ブラウザを使用すると、以前の選択内容を記憶するためにローカル Cookie が使用され、そのデータが表示されます

これらのいずれかを知りたい: 1) Python からの最初のリクエストですべてのパラメーター (選択) を渡す方法 2) Python で Chrome Cookie を使用して、実際にデータを含むページを返す方法

コード例は素晴らしいですが、読むべきリンクに私を送ってもうまくいきます。

どうもありがとうPF

4

1 に答える 1

1

リクエストに対してurllib2を使用することを主張する場合は、cookielibを調べることをお勧めします。

次に例を示します。

import urllib2
import cookielib
from BeautifulSoup import BeautifulSoup

cookiejar = cookielib.CookieJar()
opener = urllib2.build_opener(
    urllib2.HTTPRedirectHandler(),
    urllib2.HTTPHandler(debuglevel=0),
    urllib2.HTTPSHandler(debuglevel=0),
    urllib2.HTTPCookieProcessor(cookiejar),
)

このようにcookiejarして、Cookieを保持するためのを作成し、オープナーを構築し、Cookieプロセッサを確立して、を渡しcookiejarます。これにより、Cookieの問題が解決されます。この時点で、を使用する代わりにurllib2.urlopen(url)、カスタムオープナーを使用してください。opener.open(url)

url = 'http://www.somesite.com/'
fp = opener.open(url)
html_object = BeautifulSoup(fp)
于 2013-02-19T15:55:37.670 に答える