問題タブ [html5lib]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
8 に答える
40982 参照

beautifulsoup - beautifulsoup、html5lib: モジュール オブジェクトに属性 _base がありません

パッケージを更新すると、次の新しいエラーが発生します。

を更新しようとしましたbeautifulsoupが、それ以上の結果はありませんでした。どうすれば修正できますか?

0 投票する
1 に答える
403 参照

python - html5lib の「予期しないキーワード引数 'useChardet'」を修正する方法

html5lib を使用していますが、最新バージョンに更新した後、次のエラーが発生し続けます。

私が使用しているコードは非常に単純です。

何か案は?

0 投票する
1 に答える
406 参照

python - Python で Web ページを解析する際の問題

Web ページに関する情報を取得するために Web ページを解析したいと思います (私の正確な問題は、このリスト内のすべての項目を取得することです: http://www.computerhope.com/vdef.htm )。

しかし、私はそれを行う方法を理解できません。

インターネット上の多くのチュートリアルは、これで始まります(簡略化): html5lib.parse(urlopen("http://www.computerhope.com/vdef.htm"))

しかし、その後、ドキュメントを参照して探している html 部分に移動する方法を説明するチュートリアルはありません。

他のいくつかのチュートリアルではそれを行う方法を説明していますCSSSelectorが、すべてのチュートリアルは Web ページではなく文字列で始まります (例: http://lxml.de/cssselect.html )。

だから私はこれを使用してWebページでツリーを作成しようとしました: fromstring(urlopen("http://www.computerhope.com/vdef.htm").read()) しかし、私はこのエラーを得ました: lxml.etree.XMLSyntaxError: Specification mandate value for attribute itemscope, line 3, column 28。このエラーは、指定されていない属性 (例: <input attribute></input>) があるために発生しますが、Web ページを制御していないため、それを回避できません。

だからここに私の問題を解決できるいくつかの質問があります:

  • ツリーを参照するにはどうすればよいですか?
  • パーサーの厳密性を下げる方法はありますか?

ありがとうございました !

0 投票する
1 に答える
6113 参照

web-scraping - html5lib: TypeError: __init__() が予期しないキーワード引数 'encoding' を取得しました

をインストールしようとしていhtml5libます。最初は最新バージョン (8 または 9 ナイン) をインストールしようとしましたが、私の BeautifulSoup と競合したため、古いバージョン (0.9999999、セブン ナイン) を試すことにしました。インストールしましたが、使用しようとすると:

エラーが発生します:

何が問題で、どうすればよいですか?

0 投票する
2 に答える
2317 参照

python-2.7 - Web サイトからリンクを抽出する BeautifulSoup ですべてのリンクを見つけることができません (リンク識別)

ここにあるこのコードを使用しています ( Python と BeautifulSoup を使用して Web ページからリンクを取得します) を使用して、Web サイトからすべてのリンクを抽出します。

このサイトhttp://www.bestwestern.com.au をテストとして使用しています。残念ながら、コードが一部のリンクを抽出していないことに気付きました。たとえば、このhttp://www.bestwestern.com.au/about-us/careers/です。どうしてか分かりません。ページのコードで、これが私が見つけたものです。

通常、エクストラクタはそれを識別する必要があると思います。BeautifulSoup のドキュメントには次のように書かれています。入ってくるのを見ましたが、find_all() は [] を返すか、find() は None を返します。これは、Python の組み込み HTML パーサーによくあるもう 1 つの問題で、理解できないタグをスキップすることがあります。繰り返しになりますが、解決策は lxml または html5lib をインストールすることです。」それでhtml5libをインストールしました。しかし、私はまだ同じ行動をしています。

ご協力ありがとうございました

0 投票する
3 に答える
3740 参照

python - BeautifulSoup find_all は 50 件の結果に制限されていますか?

BeautifulSoup を使用してページから結果を取得しようとしています。

この以前の解決策を読みました: Beautiful Soup findAll はそれらをすべて見つけられず 、html.parser、lxml、および html5lib を試しましたが、どれも 50 を超える結果を返しませんでした。助言がありますか?

ありがとうございました