文字列からURLを抽出する方法についてこのスレッドを読みました。https://stackoverflow.com/a/840014/326905本当にいいです、私はhttp://www.blabla.comを 含むXMLドキュメントからすべてのURLを取得しました
>>> s = '<link href="http://www.blabla.com/blah" />
<link href="http://www.blabla.com" />'
>>> re.findall(r'(https?://\S+)', s)
['http://www.blabla.com/blah"', 'http://www.blabla.com"']
しかし、URLの最後にあるdoubleqouteを省略するように正規表現をカスタマイズする方法がわかりません。
最初はこれが手がかりだと思いました
re.findall(r'(https?://\S+\")', s)
またはこれ
re.findall(r'(https?://\S+\Z")', s)
しかし、そうではありません。
誰かが私を助けて、最後の二重引用符を省略する方法を教えてもらえますか?
ところで。httpsの「s」の後の疑問符は、「s」が発生する可能性があること、または発生しないことを意味します。私は正しいですか?