0

Web サイトのディレクトリ ツリー内のすべてのファイルを取得するために、Linux で wget コマンドを使用することは可能ですか?

ミラーなどを使用してすべての Web サイトを再帰的に取得できますが、単一のディレクトリ内のすべてのファイルを取得したいと考えています。私の考えでは、次のようになります。

    wget http://www.somesite.com/here/is/some/folders/*

これにより、/folders/ ディレクトリ内のすべてのファイルがダウンロードされます (サブディレクトリを再帰的に調べる必要はありません)。しかし、ワイルドカード文字は wget では機能しないようですので、正しい方法を探しています。

4

1 に答える 1

4

確かに、再帰するインデックスがあれば、 のwget -r下のすべてを再帰するがあります。folders/

他にできることはindex.htm、ディレクトリに何かがある場合foldersは、grep、sed、wget から wget へのチェーンを介して次のように切断できます。

wget -qO - http://foo/folder/index.htm | sed 's/href=/#/' | cut -d\# -f2 | \
  while read url; do wget $url; done

これは一般的に、スクレイピングが必要なときに私が行うことであり、何らかの理由で再帰することはできません。

編集:

おそらく適切に追加--no-parentして設定したいでしょう。wget--domainのマンページは、実際には非常に優れており、このような内容をカバーしています。

于 2013-10-22T22:51:49.717 に答える