POST 認証を使用して、クロールする Web サイトがあります。
ログインとパスワードがあれば、このサイトのクローズド セクションをクロールするにはどうすればよいですか?
POST 認証を使用して、クロールする Web サイトがあります。
ログインとパスワードがあれば、このサイトのクローズド セクションをクロールするにはどうすればよいですか?
確かに、urllib2を使用してPOST認証を実行し、クロールを実行できます。ただし、urllib2をまだ学習していない場合は、優れたrequests
ライブラリを使用する方がはるかに良いでしょう。
手順と本当に素晴らしいチュートリアルはhttp://docs.python-requests.org/en/latest/index.htmlにあります。
パッケージをインストールするには、を実行しますpip install requests
。sudo
Macまたはその他のUnixシステムでは、次のようにコマンドの前にを付ける必要があります。sudo pip install requests
Asheesh Laroiaによる最近のPyConの講演、「Webスクレイピング:信頼性が高く効率的にデータをプルする」をご覧ください。
講義は2時間39分ですが、たくさんのことをカバーしていて、フレンドリーなペースです。実際、これは私が今まで見た中で最高のプログラミングビデオの1つです。
ここでのこの同様の質問が役立つかもしれません:Pythonを使用してWebページにログインし、後で使用するためにCookieを取得する方法は?そしてこれも:Pythonサイトログインそして最後にこれ: Pythonを使用してウェブサイトにログインすると、ログインしてセッションの残りの部分でログインしたCookieを使用する方法が示され、「閉じた」セクションを解析/スクレイプできます。詳細については、urllibもご覧ください。