0

Github のコミット ページをクロールして分析を行おうとしています。ページはこちら

YARN-8569

ただし、「js-diff-progressive-container」というタグが 2 つあり、それぞれに多数の子タグがあります。下記参照

HTML ページのスナップショット

urllib2.Request() と urllib2.urlopen() を使用して html ページを取得し、beautifulsoup を使用して html コードを解析すると、最初の「js-diff-progressive-container」タグとその子タグしか取得できないようです. 2 つ目は、「js-diff-progressive-retry」というクラスのタグを取得します。解析コードは次のとおりです。

for tag in soup.find_all('div', class_='js-diff-progressive-container'):
    print 1
    for div in tag.find_all('div'):
        id = div.get('id')
        if id:
            id = id.split('-')
            print id
            if id[0] == 'diff':
                div2 = div.find_all('div')
                class_div = div2[0]
                if class_div.get('data-path'):
                    changed_class.append(class_div.get('data-path'))

このタグは動的に読み込まれるため、一度にすべての html コードを取得できないと誰かに言われました。HTMLページのコード全体を取得するにはどうすればよいですか?

4

0 に答える 0