次のような URL を含む html ページがあります。
<h3><a href="http://site.com/path/index.php" h="blablabla">
<h3><a href="https://www.site.org/index.php?option=com_content" h="vlavlavla">
抽出したい:
site.com/path
www.site.org
<h3><a href="
&の間/index.php
。
私はこのコードを試しました:
#!/usr/local/bin/perl
use strict;
use warnings;
open (MYFILE, 'MyFileName.txt');
while (<MYFILE>)
{
my $values1 = split('http://', $_); #VALUE WILL BE: www.site.org/path/index2.php
my @values2 = split('index.php', $values1); #VALUE WILL BE: www.site.org/path/ ?option=com_content
print $values2[0]; # here it must print www.site.org/path/ but it don't
print "\n";
}
close (MYFILE);
しかし、これは出力を与えます:
2
1
2
2
1
1
また、https Web サイトを解析しません。よろしくお願いします。