python - Python を使用した .ASPX Web サイト URL からのデータのスクレイピング

Question

スクレイピングしようとしている静的な .aspx URL があります。私の試みはすべて、クエリしているデータではなく、通常の Web サイトの生の html データを生成します。

私の理解では、使用しているヘッダー (別の投稿から見つけたもの) は正しく、一般化可能です。

import urllib.request
from bs4 import BeautifulSoup

headers = {
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.17 (KHTML, like Gecko)  Chrome/24.0.1312.57 Safari/537.17',
    'Content-Type': 'application/x-www-form-urlencoded',
    'Accept-Encoding': 'gzip,deflate,sdch',
    'Accept-Language': 'en-US,en;q=0.8',
    'Accept-Charset': 'ISO-8859-1,utf-8;q=0.7,*;q=0.3'
}

class MyOpener(urllib.request.FancyURLopener):
    version = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.57 Safari/537.17'

myopener = MyOpener()
url = 'https://www.mytaxcollector.com/trSearch.aspx'
# first HTTP request without form data
f = myopener.open(url)
soup_dummy = BeautifulSoup(f,"html5lib")
# parse and retrieve two vital form values
viewstate = soup_dummy.select("#__VIEWSTATE")[0]['value']
viewstategen = soup_dummy.select("#__VIEWSTATEGENERATOR")[0]['value']

フォームデータを入力しようとしても、何も起こりません。

formData = (
    ('__VIEWSTATE', viewstate),
    ('__VIEWSTATEGENERATOR', viewstategen),
    ('ctl00_contentHolder_trSearchCharactersAPN', '631091430000'),
    ('__EVENTTARGET', 'ct100$MainContent$calculate')
)

encodedFields =  urllib.parse.urlencode(formData)
# second HTTP request with form data
f = myopener.open(url, encodedFields)


soup = BeautifulSoup(f,"html5lib")
trans_emissions = soup.find("span", id="ctl00_MainContent_transEmissions")
print(trans_emissions.text)

これにより、「soup_dummy」変数とほぼ同じ生の HTML コードが得られます。しかし、私が見たいのは、送信されているフィールド (「ctl00_contentHolder_trSearchCharactersAPN」、「631091430000」) のデータです (これは「区画番号」ボックスです。

本当に助かります。どちらかといえば、HTML リクエストに関する優れた投稿 (説明するだけでなく、aspx のスクレイピングについて実際に説明するもの) へのリンクを提供していただければ幸いです。

python - Python を使用した .ASPX Web サイト URL からのデータのスクレイピング

1 に答える 1

Related

Reference