0

class='profile-search-school-link' のすべての URL を取得しようとしていますが、スープ オブジェクトを取得することさえできません。

私は次のことを行います:

site = "http://www.geteducated.com/profiles/search/Computer%20Science%20%26%20IT&SS=Search%20by%20Subject%20%3E%20Computer%20Science%20%26%20IT/?start=15"

""" gets a list of the urls for the degree programs """
r = requests.get(site)
html_source = r.text
soup = BeautifulSoup(html_source)

print(soup.prettify())

出力:

<class 'bs4.BeautifulSoup'> # print statement
[] # my depressingly empty soup
  1. コードはどうなっていますか?ブラウザに貼り付けてもリンクが切れません。

  2. URL を取得するにはどうすればよいですか?

4

1 に答える 1

1

あなたのことはわかりませんが、私にとってはリンクが壊れています - それがあなたの最初の問題かもしれません ;)

エラーコードの500応答が返ってきました


うーん、最初に ?start なしでベース URL に移動した後に機能します。

ああ、それは、最初に Web サイトにアクセスした後、Cookie などのものがローカル ストレージに保存されるためだと思います。クッキーを有効にしない限り、美しいスープはそれを行うことができません ;)

CookieLib の使用をお勧めします

于 2013-07-29T21:03:30.493 に答える