re api を使用して、テキスト ファイルから URL を抽出しようとしています。http:// 、 https:// 、 www で始まるすべてのリンク。
ファイルにはテキストとhtmlソースコードが含まれており、html部分はBeautifulSoupで抽出できるので簡単ですが、通常のテキストはもっと難しいようです。URL抽出の最良の実装と思われるこれをオンラインで見つけましたが、特定のタグで失敗し、特にタグを処理できず、それらをURLに含めます。私は文字列の一致にまったく慣れていないので、助けていただければ幸いです
ここに署名があります
sp1=re.findall("http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+", str(STRING))
sp2=re.findall('www.(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', str(STRING))
例:
http://www.website.com/science/</span></a><o:p></o:p></span></div><div
www.website.com/library/</span></a></span></i><span
http://awebsite.com/Groups</a><div>