一連のURLを除外して、wwwやプレフィックスを含まないベースURLを見つけようとしていますが、それをキャプチャする式を作成するのに問題がありますが、TLDのサブセットを使用すると、かなり複雑な問題になります。 。
answers.yahoo.com => yahoo.com
www.google.com => google.com
uk.answers.yahoo.co.uk = > yahoo.co.uk
www.g.se => g.se
助言がありますか?
この式を使用していましたが、ドメイン名が2文字以下の場合、またはドメインtldが2文字未満の場合、混乱します。
(?P<domain>[a-z0-9][a-z0-9\-]{1,63}\.[a-z\.]{2,6})$