Github のコミット ページをクロールして分析を行おうとしています。ページはこちら
ただし、「js-diff-progressive-container」というタグが 2 つあり、それぞれに多数の子タグがあります。下記参照
urllib2.Request() と urllib2.urlopen() を使用して html ページを取得し、beautifulsoup を使用して html コードを解析すると、最初の「js-diff-progressive-container」タグとその子タグしか取得できないようです. 2 つ目は、「js-diff-progressive-retry」というクラスのタグを取得します。解析コードは次のとおりです。
for tag in soup.find_all('div', class_='js-diff-progressive-container'):
print 1
for div in tag.find_all('div'):
id = div.get('id')
if id:
id = id.split('-')
print id
if id[0] == 'diff':
div2 = div.find_all('div')
class_div = div2[0]
if class_div.get('data-path'):
changed_class.append(class_div.get('data-path'))
このタグは動的に読み込まれるため、一度にすべての html コードを取得できないと誰かに言われました。HTMLページのコード全体を取得するにはどうすればよいですか?