Web サーバー経由でファイルのダウンロードを自動化しようとしています。wget または curl または python urllib / urllib2 を使用する予定です。
ほとんどのソリューションは、wget と urllib と urllib2 を使用します。それらはすべて、HHTP ベースの認証と Cookie ベースの認証について語っています。私の問題は、自分のデータを保存する Web サイトで使用されているものがわからないことです。サイトとのやり取りは次のとおりです。
- 通常、サイトhttp://www.anysite.com/index.cgiにログインしますか?
- ログインとパスワードを含むフォームを取得します。両方を入力してリターンを押します。
- URL はhttp://www.anysite.com/index.cgiのままですか? 相互作用全体の間。しかし今、私はフォルダとファイルのリストを持っています
- フォルダーまたはファイルをクリックすると、URL がhttp://shamrockstructures.com/cgi-bin/index.cgi?page=download&file=%2Fhome%2Fjanysite%2Fpublic_html%2Fuser_data%2Fuserareas%2Ffile.tar.bz2に変わります
そして、ブラウザはファイルを保存する機会を提供してくれます
サイトが HTTP または Cookie ベースの認証を使用しているかどうかを確認する方法を知りたいです。その後、pythonでcookielibまたはurllib2を使用して接続し、ファイルとフォルダーのリストを取得し、接続を維持しながらすべてを再帰的にダウンロードできると想定しています。
pS: wget および wget --http-user "uname" --http-password "passwd" http://www.anysite.com/index.cgiを介して接続するクッキー カッターの方法を試しましたか? 、しかし彼らは私にウェブフォームを返すだけです。