HTML フレームを多用する既存の Web アプリケーションを監査しています。各フレームのすべての HTML をダウンロードしたいのですが、wgetまたは少しのスクリプトでこれを行う方法はありますか?
3 に答える
スティーブの答えへの追加として:
任意のホストにスパン—'-H' </ p>
'-H'オプションはホストスパニングをオンにし、Wgetの再帰実行がリンクによって参照される任意のホストにアクセスできるようにします。十分な再帰制限基準が適用されない限り、これらの外部ホストは通常、さらに多くのホストにリンクし、Wgetが意図したよりもはるかに多くのデータを吸い上げるまで続きます。
特定のドメインにまたがる制限—'-D' </ p>
'-D'オプションを使用すると、追跡するドメインを指定できるため、再帰をこれらのドメインに属するホストのみに制限できます。明らかに、これは「-H」と組み合わせた場合にのみ意味があります。
典型的な例は、「www.server.com」のコンテンツをダウンロードすることですが、「images.server.com」などからのダウンロードを許可します。
wget -rH -Dserver.com http://www.server.com/
複数のアドレスをコンマで区切って指定できます。
例:'-Ddomain1.com、domain2.com'。
から取得:wgetマニュアル
wget --recursive --domains=www.mysite.com http://www.mysite.com
これは、再帰的なクロールもフレームとiframeにトラバースする必要があることを示しています。Web全体をクロールしたくない場合があるため、再帰の範囲をWebサイトのみに制限するように注意してください。
wgetには再帰的にする-rオプションがあります。wget-r-l1を試してください (フォントが読みづらい場合:最後の部分は小文字のLの後に数字が続きます)-l1の部分は再帰するように指示します最大深度1まで。この数字で遊んでみて、さらにこすります。