20

サイト全体ではなく、単一のページをダウンロードするために、httrack ( http://www.httrack.com/ ) を使用しようとしています。したがって、たとえば、www.google.com をダウンロードするために httrack を使用する場合、www.google.com の下にある html とすべてのスタイルシート、画像、JavaScript のみをダウンロードし、images.google.com へのリンクをたどらないでください。 labs.google.com または www.google.com/subdir/ など

オプションを試してみ-wましたが、違いはありませんでした。

正しいコマンドは何でしょうか?

編集

使用してみhttrack "http://www.google.com/" -O "./www.google.com" "http://www.google.com/" -v -s0 --depth=1ましたが、画像をコピーできません。

私が基本的に望んでいるのは、そのドメインのインデックス ファイルをすべてのアセットと共にダウンロードすることですが、外部リンクまたは内部リンクのコンテンツはダウンロードしません。

4

5 に答える 5

7

httrack の代わりに wget を使用できますか? wget -p単一のページとそのすべての「前提条件」 (画像、スタイルシート) をダウンロードします。

于 2009-12-28T12:57:44.623 に答える
2

例を見る:

httrack "http://www.all.net/" -O "/tmp/www.all.net" "+*.all.net/*" -v

最後の部分は正規表現です。完全に一致する正規表現を作成するだけです。

httrack "http://www.google.com.au/" -O "/tmp/www.google.com.au" "+*.google.com.au/*" -v ---depth=2 --ext-depth=2

ローカライズする必要がありました。そうしないと、リダイレクト ページが表示されます。リダイレクト先の Google にローカライズする必要があります。

于 2009-12-28T08:03:22.893 に答える
1

HTTTrack の目的は、リンクをたどることです。設定してみてください--ext-depth=0

于 2009-12-28T08:01:29.013 に答える