問題タブ [html5lib]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

106 問題

0 投票する

8 に答える

40982 参照

beautifulsoup - beautifulsoup、html5lib: モジュールオブジェクトに属性 _base がありません

パッケージを更新すると、次の新しいエラーが発生します。

を更新しようとしましたbeautifulsoupが、それ以上の結果はありませんでした。どうすれば修正できますか？

beautifulsoup html5lib

2016-07-19T00:14:13.940

0 投票する

1 に答える

403 参照

python - html5lib の「予期しないキーワード引数 'useChardet'」を修正する方法

html5lib を使用していますが、最新バージョンに更新した後、次のエラーが発生し続けます。

私が使用しているコードは非常に単純です。

何か案は？

python html5lib

2016-07-25T20:41:56.297

0 投票する

1 に答える

406 参照

python - Python で Web ページを解析する際の問題

Web ページに関する情報を取得するために Web ページを解析したいと思います (私の正確な問題は、このリスト内のすべての項目を取得することです: http://www.computerhope.com/vdef.htm )。

しかし、私はそれを行う方法を理解できません。

インターネット上の多くのチュートリアルは、これで始まります（簡略化）： html5lib.parse(urlopen("http://www.computerhope.com/vdef.htm"))

しかし、その後、ドキュメントを参照して探している html 部分に移動する方法を説明するチュートリアルはありません。

他のいくつかのチュートリアルではそれを行う方法を説明していますCSSSelectorが、すべてのチュートリアルは Web ページではなく文字列で始まります (例: http://lxml.de/cssselect.html )。

だから私はこれを使用してWebページでツリーを作成しようとしました: fromstring(urlopen("http://www.computerhope.com/vdef.htm").read()) しかし、私はこのエラーを得ました: lxml.etree.XMLSyntaxError: Specification mandate value for attribute itemscope, line 3, column 28。このエラーは、指定されていない属性 (例: <input attribute></input>) があるために発生しますが、Web ページを制御していないため、それを回避できません。

だからここに私の問題を解決できるいくつかの質問があります:

ツリーを参照するにはどうすればよいですか?
パーサーの厳密性を下げる方法はありますか?

ありがとうございました！

python html lxml html5lib

2016-07-27T17:45:51.230

0 投票する

1 に答える

6113 参照

web-scraping - html5lib: TypeError: init() が予期しないキーワード引数 'encoding' を取得しました

をインストールしようとしていhtml5libます。最初は最新バージョン (8 または 9 ナイン) をインストールしようとしましたが、私の BeautifulSoup と競合したため、古いバージョン (0.9999999、セブンナイン) を試すことにしました。インストールしましたが、使用しようとすると：

エラーが発生します：

何が問題で、どうすればよいですか?

web-scraping beautifulsoup html5lib

2016-08-22T18:23:52.340

0 投票する

2 に答える

2317 参照

python-2.7 - Web サイトからリンクを抽出する BeautifulSoup ですべてのリンクを見つけることができません (リンク識別)

ここにあるこのコードを使用しています ( Python と BeautifulSoup を使用して Web ページからリンクを取得します) を使用して、Web サイトからすべてのリンクを抽出します。

このサイトhttp://www.bestwestern.com.au をテストとして使用しています。残念ながら、コードが一部のリンクを抽出していないことに気付きました。たとえば、このhttp://www.bestwestern.com.au/about-us/careers/です。どうしてか分かりません。ページのコードで、これが私が見つけたものです。

通常、エクストラクタはそれを識別する必要があると思います。BeautifulSoup のドキュメントには次のように書かれています。入ってくるのを見ましたが、find_all() は [] を返すか、find() は None を返します。これは、Python の組み込み HTML パーサーによくあるもう 1 つの問題で、理解できないタグをスキップすることがあります。繰り返しになりますが、解決策は lxml または html5lib をインストールすることです。」それでhtml5libをインストールしました。しかし、私はまだ同じ行動をしています。

ご協力ありがとうございました

python-2.7 hyperlink beautifulsoup html5lib

2016-09-19T22:01:09.473

0 投票する

3 に答える

3740 参照

python - BeautifulSoup find_all は 50 件の結果に制限されていますか?

BeautifulSoup を使用してページから結果を取得しようとしています。

この以前の解決策を読みました: Beautiful Soup findAll はそれらをすべて見つけられず、html.parser、lxml、および html5lib を試しましたが、どれも 50 を超える結果を返しませんでした。助言がありますか？

ありがとうございました

python beautifulsoup lxml html5lib

2017-02-27T09:21:29.167

1 2 3 4 5 6 7 8 9 10

問題タブ [html5lib]

beautifulsoup - beautifulsoup、html5lib: モジュール オブジェクトに属性 _base がありません

python - html5lib の「予期しないキーワード引数 'useChardet'」を修正する方法

python - Python で Web ページを解析する際の問題

web-scraping - html5lib: TypeError: __init__() が予期しないキーワード引数 'encoding' を取得しました

python-2.7 - Web サイトからリンクを抽出する BeautifulSoup ですべてのリンクを見つけることができません (リンク識別)

python - BeautifulSoup find_all は 50 件の結果に制限されていますか?

Reference

beautifulsoup - beautifulsoup、html5lib: モジュールオブジェクトに属性 _base がありません

web-scraping - html5lib: TypeError: init() が予期しないキーワード引数 'encoding' を取得しました