3

検索エンジンで正しく質問する方法がわからないため、調査に苦労している質問があります。

URLのリストがあります。リストを調べて、トップディレクトリのみのすべての URL を削除する自動化された方法 (優先的には Perl) が必要です。

たとえば、次のリストがあるとします。

http://www.example.com/hello.html
http://www.foo.com/this/thingrighthere.html

この場合、example.com は最上位ディレクトリのみであるか、最上位ディレクトリ内のファイルを参照しているため、リストから削除したいと思います。

私はそれを行う方法を理解しようとしています。私が最初に考えたのは、スラッシュを数えて、2 つ以上ある場合はその URL をリストから削除することでした。しかし、その後にスラッシュが続くため、うまくいきません。

どんなアイデアや考えでも大歓迎です。

4

3 に答える 3

5

このようなもの:

use URI::Split qw( uri_split ); 
my $url = "http://www.foo.com/this/thingrighthere.html";
my ($scheme, $auth, $path, $query, $frag)  = uri_split( $url );
if (($path =~ tr/\///) > 1 ) {
    print "I care about this $url";
}

http://metacpan.org/pod/URI::Split

于 2013-01-03T20:23:20.207 に答える