みんな。
私の研究プロジェクトのために、いくつかの Web ページを集めました。
例: http://git.gnome.org/browse/anjuta/commit/?id=d17caca8f81bb0f0ba4d341d6d6132ff51d186e3
上記の Web ページをご覧のとおり、コミッターの名前は英語ではありません。
他の Web ページにも、コミッターの名前が英語以外のさまざまな言語で書かれています。
次のコードは、コミッター名で処理するためのものです。
import csv
import re
import urllib
def get_page (link):
k = 1
while k == 1:
try:
f = urllib.urlopen (link)
htmlSource = f.read()
return htmlSource
except EnvironmentError:
print ('Error occured:', link)
else:
k = 2
f.close()
def get_commit_info (commit_page):
commit_page_string = str (commit_page)
author_pattern = re.compile (r'<tr><th>author</th><td>(.*?)</td><td class=', re.DOTALL)
t_author = author_pattern.findall (commit_page_string)
t_author_string = str (t_author)
author_point = re.search (" <", t_author_string)
author = t_author_string[:author_point.start()]
print author
git_url = "http://git.gnome.org/browse/anjuta/commit/?id=d17caca8f81bb0f0ba4d341d6d6132ff51d186e3"
commit_page = get_page (git_url)
get_commit_info (commit_page)
「print author」の結果は次のとおりです。
\xd0\x9c\xd0\xb8\xd1\x80\xd0\xbe\xd1\x81\xd0\xbb\xd0\xb0\xd0\xb2 \xd0\x9d\xd0\ xb8\xd0\xba\xd0\xbe\xd0 \xbb\xd0\xb8\xd1\x9b
名前を正確に印刷するにはどうすればよいですか?