perl - perl mechanize を介して一意の URL と関連するリンクテキストを抽出する最良の方法は何ですか?

Question

Web から URL を抽出するために、次の perl スクリプトを作成しました。

#!perl

use strict;
use warnings;

use List::MoreUtils qw( uniq );
use WWW::Mechanize  qw( );

my ($url) = @ARGV;
my $mech = WWW::Mechanize->new();


sub getUrl {
    my $request= "@_";
    my $response = $mech->get($request);
    return $response->is_success()  or die($response->status_line() . "\n");
}

sub getLinks {
    getUrl($url);
    my @root= map { "$_\n" } sort { $a cmp $b } uniq 
        map { $_->url_abs() }
            $mech->links();
    return @root;
}
print Dumper(getLinks());

HTML サイトから一意の URL と関連するリンクテキストを抽出する方法はありますか?

score 1 · Accepted Answer

HTML::LinkExtor - HTML ドキュメントからリンクを抽出するをご覧ください。

モジュールの例を参照してください。大いに役立ちます。

perl - perl mechanize を介して一意の URL と関連するリンク テキストを抽出する最良の方法は何ですか?

2 に答える 2

Related

Reference

perl - perl mechanize を介して一意の URL と関連するリンクテキストを抽出する最良の方法は何ですか?