属性を持つすべてのリンクについてWebサイトを解析しようとしていますnofollow
。そのリストを1つずつリンクして印刷したいと思います。ただし、の結果をfindall()
リストに追加できませんでしたbox
(私の試みは括弧内にあります)。
私は何を間違えましたか?
import sys
import urllib2
from BeautifulSoup import BeautifulSoup
page = urllib2.urlopen(sys.argv[1]).read()
soup = BeautifulSoup(page)
soup.prettify()
box = []
for anchor in soup.findAll('a', href=True, attrs = {'rel' : 'nofollow'}):
# box.extend(anchor['href'])
print anchor['href']
# print box