私は本当に奇妙な問題を抱えています:私はhtmlサイトでURLを検索していて、URLの特定の部分だけが欲しいのです。私のテストHTMLページでは、リンクは1回だけ発生しますが、1つの結果ではなく、約20を取得します...
これは私の正規表現imを使用しています:
perl -ne 'm/http\:\/\myurl\.com\/somefile\.php.+\/afolder\/(.*)\.(rar|zip|tar|gz)/; print "$1.$2\n";'
サンプル入力は次のようになります。
<html><body><a href="http://myurl.com/somefile.php&x=foo?y=bla?z=sdf?path=/foo/bar/afolder/testfile.zip?more=arguments?and=evenmore">Somelinknme</a></body></html>
これは非常に簡単な例です。したがって、実際には、リンクは、周りにコンテンツがある通常のWebサイトに表示されます...
私の結果は次のようになります。
testfile.zip
しかし、代わりに私はこの行を頻繁に見ます...これは正規表現または他の何かの問題ですか?