python - Python 3.5でスクレイピング中にWebサイトにログインする方法

Question

Web サイトからデータをスクレイピングしようとしてwww.vestiairecollective.comいますスクレイピング中に、そのメインページのいくつかにしかアクセスできません。たとえば、私のスクリプトは url のデータをスクレイピングできませんhttp://www.vestiairecollective.com/women-bags/handbags/#_=catalog&id_brand%5B%5D=50&material%5B%5D=3&step=180。

その方法を示すスタックオーバーフローの多くの質問を参照しました。Windowsでpython 3.5を使用しているため、「機械化」と「cookielib」は機能しません。また、「robobrowser」などのライブラリが機能することを指摘する質問もほとんど見られませんでした。私もそれを試してみましたが、途中で立ち往生しました。

次に、セッションを試してみましたが、request.Sessions() と入力すると、リクエストにはセッションという属性がありません。

上記の URL を使用する場合は、この特定の Web サイトのコードを使用して、robobrowser またはその他の方法で私を助けてください。

これは私が答えを参照した後に試したことです:-

import urllib.request
from bs4 import BeautifulSoup
import requests
session=requests.Session()
loginUrl='http://www.vestiairecollective.com/'
resLogin=session.post(loginUrl,data=  {'h':'5fcdc0ac04537595a747e2830037cca0','email':'something@gmail.com','password':'somepasswrd','ga_client_id':'750706459.1463098234'})
url='http://www.vestiairecollective.com/women-bags/handbags/#_=catalog&id_brand%5B%5D=50&material%5B%5D=3'
res=session.get(url)
//The below url i have given because I want to scrape from this url
crl=urllib.request.urlopen("http://www.vestiairecollective.com/women-bags/handbags/#_=catalog&id_brand%5B%5D=50&material%5B%5D=3")

soup=BeautifulSoup(crl.read(),"html.parser")

geturl=soup.find_all("div",{"class":"expand-snippet-container"})    

for i in geturl:           //The Scraping Part
    data1=i.find_all("p",{"class":"brand"})
    datac1=[da.contents[0] for da in data1]
    brdata=("\n".join(datac1))
    print(brdata)

ここでは、「crl」ページからスクレイピングを行う必要がありますが、メインページ自体から行っています。

python - Python 3.5でスクレイピング中にWebサイトにログインする方法

1 に答える 1

Related

Reference