regex - Perl正規表現は括弧抽出を無効にします

Question

私は別の答えで見つけた何かを試していますが、いくつかの問題があります：

URLの正規表現の方が優れていることは知っていますが、たとえば次のように考えてください。

@links=($content =~ m/(https?)?.*[.]com/g);
*$content has text or html

(https?)?のようなリンク用の部分ですがwww.google.com、元に戻る括弧"http"を$1使用して@links！リンク全体が欲しいので、それは問題です。

テキストから単純なリンク（または指定されている正規表現）をグローバルに抽出し、それらをリストに入れるにはどうすればよいでしょうか。
簡単に言うと、次のことを意味します。

score 5 · Accepted Answer

あなたのアプローチはあまりにも素朴で、他の多くのURLをキャッチしません。代わりに、次のようにRegexp::Commonを使用します。

use Regexp::Common qw/URI/;

my @links = ($content =~ /$RE{URI}/g);

これはHTTP、HTTPS、FTPなどで機能し、URLパラメータのより高度な組み合わせを適切にキャプチャします。

score 3 · Accepted Answer

非キャプチャバージョンは次のようになります。

m/(?:https?)?.*[.]com/g

リンクをキャプチャするために、URI :: Find：から派生したこの正規表現を使用します。

m<https?://[;/\?:\@&=+\$,\[\]A-Za-z0-9\-_.!~*'()%#]*[/\?:\@&=+\$\[A-Za-z0-9\-_!~*(%#]>

2 に答える 2