perl - Perl を使用して Web サイトからリンクターゲットをダウンロードするにはどうすればよいですか?

Question

Web サイトからリンクを取得してテキストファイルに保存するスクリプトを作成しました。

今、私は正規表現に取り組んでいるのでphp?dl=、テキストファイルからURLに含まれるリンクを取得します:

例えば：www.example.com/site/admin/a_files.php?dl=33931

dlサイトのボタンにカーソルを合わせると、ほとんどのアドレスが表示されます。クリックしてダウンロードするか、「右クリックで保存」できます。

ファイルをダウンロードする指定されたアドレスのコンテンツをダウンロードする必要があるため、これを達成する方法について疑問に思ってい*.txtます。もちろんすべて台本から。

score 8 · Accepted Answer

WWW::Mechanizeあなたの新しい親友を作りましょう。

理由は次のとおりです。

特定の正規表現に一致する Web ページ上のリンクを識別できます (/php\?dl=/この場合)。
follow_linkメソッドを介してこれらのリンクをたどることができます
getそれらのリンクのターゲットを指定してファイルに保存できます

必要なリンクを中間ファイルに保存する必要はありません。仕事に適したツールがあれば、人生は楽しくなります...

例

use strict;
use warnings;
use WWW::Mechanize;

my $url  = 'http://www.example.com/';
my $mech = WWW::Mechanize->new();

$mech->get ( $url );

my @linksOfInterest = $mech->find_all_links ( text_regex => qr/php\?dl=/ );

my $fileNumber++;

foreach my $link (@linksOfInterest) {

    $mech->get ( $link, ':contentfile' => "file".($fileNumber++).".txt" );
    $mech->back();
}

score 5 · Accepted Answer

LWP::UserAgentでファイルをダウンロードできます:

my $ua = LWP::UserAgent->new();  
my $response = $ua->get($url, ':content_file' => 'file.txt');

または、ファイルハンドルが必要な場合:

open my $fh, '<', $response->content_ref or die $!;

perl - Perl を使用して Web サイトからリンク ターゲットをダウンロードするにはどうすればよいですか?

3 に答える 3

Related

Reference

perl - Perl を使用して Web サイトからリンクターゲットをダウンロードするにはどうすればよいですか?