python - POST応答は、200、500、および404の間で予測できないほど変化します

Question

多数の検索結果を返すサイトをスクレイピングしようとしています。問題は、ページをナビゲートする唯一の方法が、各リンクのhref引数に付加された__doPostBackメソッドを使用することです。

これは私の現在のコードです：

class guruSpider(BaseSpider):
    name = "guru"
    allowed_domains = ["guru.com"]

    def start_requests(self):
        baseUrl = "http://www.guru.com/emp/search.aspx?keyword=#&&sort=Earnings&page="
        endUrl = "&sort=Earnings"
        target = 'ctl00$empcnt$ucResults$pagination'
        hiddenValue = ";;AjaxControlToolkit, Version=3.5.60919.0, Culture=neutral, PublicKeyToken=28f01b0e84b6d53e:en-US:311bfa99-1d92-41d7-aace-73bb01d14bf6:475a4ef5:effe2a26:1d3ed089:5546a2b:497ef277:a43b07eb:d2e10b12:37e2e5c9:751cdd15:dfad98a5:3cf12cf1"
        requests = []
        for i in range(1, 5):
            url = baseUrl + str(i)
            argument = str(i+1)
            data = {'__EVENTTARGET': target, '__EVENTARGUMENT': argument,
                    '__ASYNCPOST': 'true', 'ctl00_scriptMgr_HiddenField':hiddenValue}
            currentPage = FormRequest(url, formdata=data)
            requests.append(currentPage)
        return requests

これには、次のサンプル応答があります。

Crawled (404) <POST http://www.guru.com/emp/search.aspx?keyword=#&&sort=Earnings&page=3> (referer: None)
Crawled (200) <POST http://www.guru.com/emp/search.aspx?keyword=#&&sort=Earnings&page=4> (referer: None)

ただし、200メッセージでは、実際の戻り値は次のとおりです。

<HtmlXPathSelector xpath=None data=u'<html><body><p>179|error|500|The page is'>

これを修正する方法について何かアイデアはありますか？私は本当にこれで私の知恵の終わりにいます。

score 0 · Accepted Answer

したがって、スクレイプを使用してjavascriptを操作することは、一般的に敗戦であることがわかります。casperjsを使用して実際にこれらの要求を実行することになり、それはうまく機能しました。セレンもこのようなことで機能すると聞きましたが、実際にセレンを試したことはありません。

私が更新を与えると思っただけです。

python - POST応答は、200、500、および404の間で予測できないほど変化します

1 に答える 1

Related

Reference