5

html5lib を使用していますが、最新バージョンに更新した後、次のエラーが発生し続けます。

Traceback (most recent call last):
  File "/home/travis/build/freelawproject/juriscraper/tests/test_everything.py", line 119, in test_scrape_all_example_files
    site.parse()
  File "/home/travis/build/freelawproject/juriscraper/juriscraper/AbstractSite.py", line 95, in parse
    self.html = self._download()
  File "/home/travis/build/freelawproject/juriscraper/juriscraper/AbstractSite.py", line 384, in _download
    html_tree = self._make_html_tree(text)
  File "/home/travis/build/freelawproject/juriscraper/juriscraper/opinions/united_states/federal_appellate/ca11_u.py", line 26, in _make_html_tree
    e = html5parser.document_fromstring(text)
  File "/home/travis/virtualenv/python2.7.9/lib/python2.7/site-packages/lxml/html/html5parser.py", line 64, in document_fromstring
    return parser.parse(html, useChardet=guess_charset).getroot()
  File "/home/travis/virtualenv/python2.7.9/lib/python2.7/site-packages/html5lib/html5parser.py", line 235, in parse
    self._parse(stream, False, None, *args, **kwargs)
  File "/home/travis/virtualenv/python2.7.9/lib/python2.7/site-packages/html5lib/html5parser.py", line 85, in _parse
    self.tokenizer = _tokenizer.HTMLTokenizer(stream, parser=self, **kwargs)
  File "/home/travis/virtualenv/python2.7.9/lib/python2.7/site-packages/html5lib/_tokenizer.py", line 36, in __init__
    self.stream = HTMLInputStream(stream, **kwargs)
  File "/home/travis/virtualenv/python2.7.9/lib/python2.7/site-packages/html5lib/_inputstream.py", line 149, in HTMLInputStream
    return HTMLUnicodeInputStream(source, **kwargs)
TypeError: __init__() got an unexpected keyword argument 'useChardet'

私が使用しているコードは非常に単純です。

from lxml.html import html5parser
html5parser.document_fromstring(u'<html></html')

何か案は?

4

1 に答える 1

5

メソッドにUnicode オブジェクトをフィードすると、document_fromstringbarfs が実行されることがわかります。これは、依存関係を更新したときにのみ発生したため、以前は使用されていませんでした。

とにかく、修正は簡単です:

html5parser.document_fromstring(u'<html></html'.encode('utf-8'))
于 2016-07-25T20:41:56.297 に答える