Webサイトを疑似スパイダーする方法を探しています。重要なのは、実際にはコンテンツではなく、URIの単純なリストが必要なことです。オプションを使用してWgetを使用すると、このアイデアにかなり近づくことができ--spider
ますが、その出力をで配管する場合、grep
それを機能させるための適切な魔法を見つけることができないようです。
wget --spider --force-html -r -l1 http://somesite.com | grep 'Saving to:'
フィルタは出力grep
にまったく影響を与えないようです。wget
何か問題がありますか、それともこの種の限定された結果セットを提供することを目的とした別のツールを試す必要がありますか?
アップデート
だから私はオフラインで、デフォルトでwget
stderrに書き込むことを知りました。私はmanページでそれを見逃しました(実際、それがそこにある場合、私はまだそれを見つけていません)。リターンをstdoutにパイプ処理すると、必要なものに近づきました。
wget --spider --force-html -r -l1 http://somesite.com 2>&1 | grep 'Saving to:'
この種のことを行うための他の/より良い手段があれば、私はまだ興味があります。