単純なパスワードで保護された Web ポータルを、ミラーリングして最新の状態に保ちたいデータにミラーリングしたいと考えています。基本的に、この Web サイトはフォルダに整理されたデータを含む単なるディレクトリ リストであり、html ファイルやその他の書式設定要素を保持することはあまり気にしません。ただし、サイズが大きすぎてダウンロードできない巨大なファイル タイプがいくつかあるので、無視したいと思います。
フラグを使用するwget -m -R/--reject
と、すべてのファイルがダウンロードされ、-R フラグと一致する場合は削除されることを除いて、私が望むことはほぼ実現します。
これが私が使用している方法ですwget
:
wget --http-user userName --http-password password -R index.html,*tiff,*bam,*bai -m http://web.server.org/
次のような出力が生成され、除外されたファイル (index.html) が (a) ダウンロードされ、(b) その後削除されることが確認されます。
...
--2012-05-23 09:38:38-- http://web.server.org/folder/
web.server.org:80 への既存の接続を再利用します。
HTTP 要求が送信され、応答を待っています... 401 承認が必要です
web.server.org:80 への既存の接続を再利用しています。
HTTP 要求が送信され、応答を待っています... 200 OK
長さ: 2677 (2.6K) [text/html]
保存先: `web.server.org/folder/index.html' 100%[======== ================================================== ================================================== ==========>] 2,677 --.-K/s in 0sLast-modified ヘッダーがありません -- タイムスタンプがオフになっています。
2012-05-23 09:38:39 (328 MB/s) - `web.server.org/folder/index.html' が保存されました [2677/2677]
それ以来、 web.server.org/folder/index.html を削除しています拒否する必要があります。
...
ファイルをダウンロードする前に wget に強制的にファイルを拒否させる方法はありますか?
検討すべき代替手段はありますか?
401 Authorization Required
また、ユーザー名とパスワードを指定したにもかかわらず、ダウンロードしたファイルごとにエラーが発生するのはなぜですか。wget
ユーザー名/パスワードを試す前に、毎回認証なしで接続しようとするようなものです。
ありがとう、マーク