0

HTMLコードからすべてのWebサイトを取得したい。問題は、すべてのURLを取得する正規表現がありますがwww、アドレスに存在する必要があることです。コンテンツに含まれていないURLを取得するには、どのような正規表現を使用する必要がありますwwwか?

更新:私が使用している正規表現は次のとおりです。

string anchorPattern = 
  @"(?<Protocol>\w+)://(?<Domain>[\w@][\w.:@]+)/?[\w.?=%&=\-@/$,&amp;+]*'";
4

2 に答える 2

1

wwwを持つURLのみに(?= www)を追加します

@"(?<Protocol>\w+)://(?=www)(?<Domain>[\w@][\w.:@]+)/?[\w.?=%&=\-@/$,&amp;+]*"

または、www urlがない場合は(?!www)を追加します

@"(?<Protocol>\w+)://(?!www)(?<Domain>[\w@][\w.:@]+)/?[\w.?=%&=\-@/$,&amp;+]*"
于 2012-05-17T21:09:14.283 に答える
0

あなたが持っているようなものですが、次のような正規表現の部分がありませんwww\.

于 2012-05-17T20:29:34.357 に答える