私は長い間、そこに含まれるすべてのURLを抽出しようとしています。
page.findall(r"http://.+")
私が持っているものですが、それは私が望むものにはなりません。URLはすべて二重引用符で囲まれているので、正規表現が「」に達したときに一致を停止するように指示するにはどうすればよいですか。
非常に複雑なURL解析正規表現がありますが、で停止したい場合は、URL部分"
に使用してください。[^\"]+
または、一重引用符で囲まれた文字列に切り替えて、を削除し\
ます。
また、https
混ぜると壊れてしまうので、
page.findall(r'"(http[^"]+)"')
しかし今、私たちはURL解析の正規表現に取り掛かっています。
ここでは、を使用する代わりに、貪欲でない式を使用することをお勧めし[^\"]+
ます。そうすれば、正規表現はになりますr'"http://.+?"'
。プラスの後の疑問符は、二重引用符の最初の遭遇を見つけるようにそれを作ります。