たとえば、コンテンツにアクセスするためにログインが必要なWebサイト(イントラネット上でも)を参照します。ブラウザ自体からログインするために必要なユーザー名、パスワード、キャプチャなどの必須フィールドに入力します。
サイトにログインすると、ログイン後に最初のページのいくつかのリンクやタブからこすり落とすことができるたくさんのグッズがあります。
さて、この時点から(つまり、ブラウザからログインした後)、ページを制御し、urllib2からダウンロードしたいと思います...ページごとに移動したり、各ページにPDFや画像をダウンロードしたりします。
urllib2(または機械化)からすべてを直接使用できることを理解しています(つまり、ページにログインしてすべてを実行します)。
ただし、一部のサイトでは、ログインメカニズム、必要な非表示パラメータ、リファラー、キャプチャ、Cookie、ポップアップを確認するのは非常に面倒です。
お知らせ下さい。私の質問が理にかなっていることを願っています。
要約すると、最初のログイン部分はWebブラウザーを使用して手動で実行する必要があります...次に、urllib2を介したスクレイピングの自動化を引き継ぎます。