python-2.7 - Python/urllib ステータスコードがまだ 200 のリダイレクトを処理する方法は?

Question

Python で特定のリダイレクトを処理できません。どうやら読み込まれてすぐに ww1.www.com にリダイレクトされるページをリクエストしています。ヘッダー/ステータスコードを返すことを知っているすべての方法を試し、常に適切な結果 (ステータスコード: 200、適切なホスト/リファラーパラメータなど) になるため、これが当てはまると思います。

ここに私が持っているものがあります:

from BeautifulSoup import BeautifulSoup
import urllib
import psycopg2
import psycopg2.extras

db = psycopg2.connect(
                     host = 'myIP'
                     database = 'myDATABASE'
                     user = 'myUSERNAME'
                     password = 'myPASSWORD'
                     )

cursor = db.cursor(cursor_factory = psycopg2.extras.RealDictCursor)
cursor.execute("SELECT info FROM table")

for row in cursor:
    url = 'http://www.website.com/' + row['info']
    file_pointer = urllib.urlopen(url)
    html_object = BeautifulSoup(file_pointer)

    if file_pointer.getcode() != 200:
        continue

if ステートメントは、ステータスコードが 200 に等しくない場合、それ以上コードが実行されないようにする必要がありますが、このセクションの後のコードでインデックスエラーが発生し、エラーを提供する URL を調査した後、エラーを表示せずにリダイレクトすることがわかりました。ステータスコード: 302。

リダイレクト中に 200 ステータスコード応答が返される理由について何か考えはありますか? (urllib2 と httplib で同等のものも試しました) また、どうすればこれを防ぐことができますか?

score 2 · Accepted Answer

正しくないように見える 1 つのこと

html_object = BeautifulSoup(file_pointer)ハンドルではなくからのデータを操作する必要がありますurlopen:- そう -html_object = BeautifulSoup(file_pointer.read())ここで必要なのは...

デバッグ用

まだリクエストをインストールしていない場合は、インストールしてください。このような用途に使用するのに最適なライブラリです。

それで：

import requests
for row in cursor:
    page = requests.get('your url')
    for hist in page.history:
        print hist.status_code, hist.url

そして、それが不可解なものを捨てるかどうかを確認してください...

python-2.7 - Python/urllib ステータス コードがまだ 200 のリダイレクトを処理する方法は?

1 に答える 1

Related

Reference

python-2.7 - Python/urllib ステータスコードがまだ 200 のリダイレクトを処理する方法は?