0

次のコードを使用して、サイト内のすべての URL を取得します

while( $html =~ m/<A HREF=\"(.*?)\"/g ) {    
      print "$1\n";  
  }

これにより、すべての URL が得られます。しかし、私の質問は、で終わるURLのみを抽出したいということです

1) .pdf

また

2) .doc

例えば

http://nc.casaforchildren.org/files/public/site/jobs/CSO.pdf

誰でも私を助けてくれますか?

4

3 に答える 3

1
 m/<A HREF=\"(.*?(.pdf|.doc))\"/g

私の場所で働いています:

> cat temp
<A HREF="http://nc.casaforchildren.org/files/public/site/jobs/CSO.pdf">bwfjbwej</A>
<A HREF="http://nc.casaforchildren.org/files/public/site/jobs/CSO.xls">bwfjbwej</A>
<A HREF="http://nc.casaforchildren.org/files/public/site/jobs/CSO.doc">bwfjbwej</A>

> perl -lne 'print $1 if(/<A HREF=\"(.*?(.pdf|.doc))\"/g)' temp
http://nc.casaforchildren.org/files/public/site/jobs/CSO.pdf
http://nc.casaforchildren.org/files/public/site/jobs/CSO.doc
>
于 2013-08-22T07:18:28.370 に答える