Pythonで正規表現を理解しようとしています。特定の URL から電子メールをスクレイピングするための非常に単純なスクリプトを作成しています。
import re
from urllib.request import *
url = input("Please insert the URL you wish to scrape> ")
page = urlopen(url)
content = page.read()
email_string = b'[a-z0-9_. A-Z]*@[a-z0-9_. A-Z]*.[a-zA-Z]'
emails_in_page = re.findall(email_string, content)
print("Here are the emails found: ")
for email in emails_in_page:
print(email)
re.findall() はリストを返し、プログラムが電子メールを出力すると、次のように正規表現文字列の「b」が出力に含まれます。
b'email1@email.com'
b'email2@email.com'
...
電子メールのきれいなリストを印刷するにはどうすればよいですか? (つまり: email1@email.com
)