regex - perlでURLのリストからURLを抽出する

Question

次のコードを使用して、サイト内のすべての URL を取得します

while( $html =~ m/<A HREF=\"(.*?)\"/g ) {    
      print "$1\n";  
  }

これにより、すべての URL が得られます。しかし、私の質問は、で終わるURLのみを抽出したいということです

1) .pdf

また

2) .doc

例えば

http://nc.casaforchildren.org/files/public/site/jobs/CSO.pdf

誰でも私を助けてくれますか？

score 1 · Accepted Answer

 m/<A HREF=\"(.*?(.pdf|.doc))\"/g

私の場所で働いています：

> cat temp
<A HREF="http://nc.casaforchildren.org/files/public/site/jobs/CSO.pdf">bwfjbwej</A>
<A HREF="http://nc.casaforchildren.org/files/public/site/jobs/CSO.xls">bwfjbwej</A>
<A HREF="http://nc.casaforchildren.org/files/public/site/jobs/CSO.doc">bwfjbwej</A>

> perl -lne 'print $1 if(/<A HREF=\"(.*?(.pdf|.doc))\"/g)' temp
http://nc.casaforchildren.org/files/public/site/jobs/CSO.pdf
http://nc.casaforchildren.org/files/public/site/jobs/CSO.doc
>

regex - perlでURLのリストからURLを抽出する

3 に答える 3

Related

Reference