0

非常に厄介なバグに気付きました: BeautifulSoup4 (パッケージ: bs4) は以前のバージョン (パッケージ: ) よりも少ないタグを見つけることがよくありますBeautifulSoup

その問題の再現可能な例を次に示します。

import requests
import bs4
import BeautifulSoup

r = requests.get('http://wordpress.org/download/release-archive/')
s4 = bs4.BeautifulSoup(r.text)
s3 = BeautifulSoup.BeautifulSoup(r.text)

print 'With BeautifulSoup 4 : {}'.format(len(s4.findAll('a')))
print 'With BeautifulSoup 3 : {}'.format(len(s3.findAll('a')))

出力:

With BeautifulSoup 4 : 557
With BeautifulSoup 3 : 1701

ご覧のとおり、違いは小さくありません。

誰かが疑問に思っている場合に備えて、モジュールの正確なバージョンは次のとおりです。

In [20]: bs4.__version__
Out[20]: '4.2.1'

In [21]: BeautifulSoup.__version__
Out[21]: '3.2.1'
4

1 に答える 1

9

lxmlこれは、BeautifulSoup 4 が標準ライブラリオプションよりもそのパーサーを使用することを意味します。html.parser

lxml を 3.2.1 にアップグレードできます (テスト ページで 1701 の結果が返されます)。lxml 自体が使用してlibxml2おり、libxsltここでもこれが原因である可能性があります。代わりに/同様にそれらをアップグレードする必要があるかもしれません。lxml 要件ページを参照してください。現在、libxml2 2.7.8 以降が推奨されています。

または、スープを解析するときに他のパーサーを明示的に指定します。

s4 = bs4.BeautifulSoup(r.text, 'html.parser')
于 2013-07-17T12:05:31.837 に答える