0

アクティブサーバーページを使用する独自のCMSからWebサイトを移行する必要があります。既存のサイトからリソースをダウンロードするのに役立つツールやテクニックはありますか?サイト全体をクロールしてスクレイプするツールを探していると思います。

追加の課題は、サイトがSSLを使用し、フォームベースの認証で保護されていることです。私は必要な資格情報を持っており、セッションを検証するCookieを取得できますが、ここからどこに行くべきかわからないため、既存のツールが役立つ場合は、車輪の再発明をしたくありません。

編集-私はWindowsOSを使用しています

4

4 に答える 4

3

wgetはあなたが使うのに良いツールかもしれません

wget --load-cookies cookies.txt --mirror --page-requisites http://example.com/

どこかに再アップロードできるものではなく、ローカルアーカイブにより適したものにしたい場合は、-convert-linksを追加します。

Windowsバージョンのwgetは、sourceforge.nethttp: //gnuwin32.sourceforge.net/packages/wget.htmのgnuwin32プロジェクトから入手でき ます。

于 2009-05-19T05:14:44.667 に答える
1
wget --http-user:username --http-pass:password -r http://yoursite.com 

これにより、サイト全体が(再帰的に)フェッチされます。Windowsを使用している場合は、cygwinまたはそれに類似したものをインストールすることをお勧めしますが、ダウンロードできるWindowsバージョン/wgetのクローンがあると思います。

于 2009-05-19T05:09:16.527 に答える
1

Perlを知っているなら、 WWW::Mechanizeが好きかもしれません。達成しようとしている自動化のレベルによって異なりますが、wget場合によってはうまくいくでしょう。

于 2009-05-19T05:10:37.007 に答える
1

あなたにはたくさんの選択肢があります。考慮すべきことの1つは、認証がいかに複雑かということです。wgetの他に、 curl(多くの異なる言語のバインディングを備えた非常に堅牢なオプション)、PythonのurllibApache HttpClientWWW-Mechanizeなどを見ることができます。

于 2009-05-19T05:13:49.813 に答える