リンクでいっぱいの .html ファイルがあります。http:// を付けずにドメインを抽出し (リンクのホスト名部分のみ、たとえば blah.com)、それらをリストして重複を削除したいと考えています。
これは私がこれまでに思いついたことです-問題は $tree データを渡そうとしている方法だと思います
#!/usr/local/bin/perl -w
use HTML::TreeBuilder 5 -weak; # Ensure weak references in use
use URI;
foreach my $file_name (@ARGV) {
my $tree = HTML::TreeBuilder->new; # empty tree
$tree->parse_file($file_name);
my $u1 = URI->new($tree);
print "host: ", $u1->host, "\n";
print "Hey, here's a dump of the parse tree of $file_name:\n";
# Now that we're done with it, we must destroy it.
# $tree = $tree->delete; # Not required with weak references
}