ロボットのリンクを抽出するために、次の正規表現を作成しました。
re.compile(r"/\S+(?:\/+)")
そして、私は次の結果を得る:
/includes/
/modules/
/search/
/?q=user/password/
/?q=user/register/
/node/add/
/logout/
/?q=admin/
/themes/
/?q=node/add/
/admin/
/?q=comment/reply/
/misc/
//example.com/
//example.com/site/
/profiles/
//www.robotstxt.org/wc/
/?q=search/
/user/password/
/?q=logout/
/comment/reply/
/?q=filter/tips/
/?q=user/login/
/user/register/
/user/login/
/scripts/
/filter/tips/
//www.sxw.org.uk/computing/robots/
次のような2つのスラッシュを持つリンクを除外するにはどうすればよいですか。
//www.sxw.org.uk/computing/robots/
//www.robotstxt.org/wc/
//example.com/
//example.com/site/
何か案は ??