3

POST 認証を使用して、クロールする Web サイトがあります。

ログインとパスワードがあれば、このサイトのクローズド セクションをクロールするにはどうすればよいですか?

4

3 に答える 3

3

確かに、urllib2を使用してPOST認証を実行し、クロールを実行できます。ただし、urllib2をまだ学習していない場合は、優れたrequestsライブラリを使用する方がはるかに良いでしょう。

手順と本当に素晴らしいチュートリアルはhttp://docs.python-requests.org/en/latest/index.htmlにあります。

パッケージをインストールするには、を実行しますpip install requestssudoMacまたはその他のUnixシステムでは、次のようにコマンドの前にを付ける必要があります。sudo pip install requests

于 2012-06-28T19:39:11.033 に答える
2

Asheesh Laroiaによる最近のPyConの講演、「Webスクレイピング:信頼性が高く効率的にデータをプルする」をご覧ください。

講義は2時間39分ですが、たくさんのことをカバーしていて、フレンドリーなペースです。実際、これは私が今まで見た中で最高のプログラミングビデオの1つです。

于 2012-06-28T20:41:00.447 に答える
1

ここでのこの同様の質問が役立つかもしれません:Pythonを使用してWebページにログインし、後で使用するためにCookieを取得する方法は?そしてこれも:Pythonサイトログインそして最後にこれ: Pythonを使用してウェブサイトにログインすると、ログインしてセッションの残りの部分でログインしたCookieを使用する方法が示され、「閉じた」セクションを解析/スクレイプできます。詳細については、urllibもご覧ください。

于 2012-06-28T19:16:17.507 に答える