3

次のサイトhttp://www.asd.com.trがあります。すべての PDF ファイルを 1 つのディレクトリにダウンロードしたいと考えています。いくつかのコマンドを試しましたが、うまくいきません。

$ wget --random-wait -r -l inf -nd -A pdf http://www.asd.com.tr/

このコードでは、4 つの PDF ファイルのみがダウンロードされました。このリンクを確認してください。数千を超える PDF が利用可能です。

たとえば、何百ものファイルが次のフォルダーにあります。

しかし、それらすべてを表示してダウンロードするためにそれらに正しくアクセスする方法がわかりません。このサブディレクトリhttp://www.asd.com.tr/Folders/にはいくつかのフォルダーがあり、これらのフォルダーには何千もの PDF があります。 .

コマンドを使用してサイトをミラーリングしようとしまし-mたが、失敗しました。

他に提案はありますか?

4

1 に答える 1

9

まず、Web サイトの TOS でクロールが許可されていることを確認します。次に、1つの解決策は次のとおりです。

mech-dump --links 'http://domain.com' |
    grep pdf$ |
    sed 's/\s+/%20/g' |
    xargs -I% wget http://domain.com/%

このmech-dumpコマンドには Perl のモジュールが付属していますWWW::Mechanize( libwww-mechanize-perldebian および debian like ディストリビューションのパッケージ)

于 2013-11-09T21:05:40.243 に答える