Web サイトからデータをスクレイピングしようとしてwww.vestiairecollective.com
います スクレイピング中に、そのメイン ページのいくつかにしかアクセスできません。たとえば、私のスクリプトは url のデータをスクレイピングできませんhttp://www.vestiairecollective.com/women-bags/handbags/#_=catalog&id_brand%5B%5D=50&material%5B%5D=3&step=180
。
その方法を示すスタックオーバーフローの多くの質問を参照しました。Windowsでpython 3.5を使用しているため、「機械化」と「cookielib」は機能しません。また、「robobrowser」などのライブラリが機能することを指摘する質問もほとんど見られませんでした。私もそれを試してみましたが、途中で立ち往生しました。
次に、セッションを試してみましたが、request.Sessions() と入力すると、リクエストにはセッションという属性がありません。
上記の URL を使用する場合は、この特定の Web サイトのコードを使用して、robobrowser またはその他の方法で私を助けてください。
これは私が答えを参照した後に試したことです:-
import urllib.request
from bs4 import BeautifulSoup
import requests
session=requests.Session()
loginUrl='http://www.vestiairecollective.com/'
resLogin=session.post(loginUrl,data= {'h':'5fcdc0ac04537595a747e2830037cca0','email':'something@gmail.com','password':'somepasswrd','ga_client_id':'750706459.1463098234'})
url='http://www.vestiairecollective.com/women-bags/handbags/#_=catalog&id_brand%5B%5D=50&material%5B%5D=3'
res=session.get(url)
//The below url i have given because I want to scrape from this url
crl=urllib.request.urlopen("http://www.vestiairecollective.com/women-bags/handbags/#_=catalog&id_brand%5B%5D=50&material%5B%5D=3")
soup=BeautifulSoup(crl.read(),"html.parser")
geturl=soup.find_all("div",{"class":"expand-snippet-container"})
for i in geturl: //The Scraping Part
data1=i.find_all("p",{"class":"brand"})
datac1=[da.contents[0] for da in data1]
brdata=("\n".join(datac1))
print(brdata)
ここでは、「crl」ページからスクレイピングを行う必要がありますが、メイン ページ自体から行っています。