0

一連のURLを除外して、wwwやプレフィックスを含まないベースURLを見つけようとしていますが、それをキャプチャする式を作成するのに問題がありますが、TLDのサブセットを使用すると、かなり複雑な問題になります。 。

answers.yahoo.com => yahoo.com
www.google.com => google.com
uk.answers.yahoo.co.uk = > yahoo.co.uk
www.g.se => g.se

助言がありますか?

この式を使用していましたが、ドメイン名が2文字以下の場合、またはドメインtldが2文字未満の場合、混乱します。

(?P<domain>[a-z0-9][a-z0-9\-]{1,63}\.[a-z\.]{2,6})$
4

2 に答える 2

1

uk.answers.yahoo.co.ukのベースがyahoo.co.ukであることをどうやって知っていますが、たとえばfoo.bar.maps.google.comのベースはmaps.google.comではありませんか?

于 2012-04-26T02:12:28.660 に答える
1
[^\.]*\.(?:co.uk|\w{2,3})$

正規表現に既知のドメインを追加する必要があります。

http://regexr.com?30p4r

于 2012-04-26T02:15:19.170 に答える