問題タブ [html5lib]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
beautifulsoup - beautifulsoup、html5lib: モジュール オブジェクトに属性 _base がありません
パッケージを更新すると、次の新しいエラーが発生します。
を更新しようとしましたbeautifulsoup
が、それ以上の結果はありませんでした。どうすれば修正できますか?
python - html5lib の「予期しないキーワード引数 'useChardet'」を修正する方法
html5lib を使用していますが、最新バージョンに更新した後、次のエラーが発生し続けます。
私が使用しているコードは非常に単純です。
何か案は?
python - Python で Web ページを解析する際の問題
Web ページに関する情報を取得するために Web ページを解析したいと思います (私の正確な問題は、このリスト内のすべての項目を取得することです: http://www.computerhope.com/vdef.htm )。
しかし、私はそれを行う方法を理解できません。
インターネット上の多くのチュートリアルは、これで始まります(簡略化):
html5lib.parse(urlopen("http://www.computerhope.com/vdef.htm"))
しかし、その後、ドキュメントを参照して探している html 部分に移動する方法を説明するチュートリアルはありません。
他のいくつかのチュートリアルではそれを行う方法を説明していますCSSSelector
が、すべてのチュートリアルは Web ページではなく文字列で始まります (例: http://lxml.de/cssselect.html )。
だから私はこれを使用してWebページでツリーを作成しようとしました:
fromstring(urlopen("http://www.computerhope.com/vdef.htm").read())
しかし、私はこのエラーを得ました:
lxml.etree.XMLSyntaxError: Specification mandate value for attribute itemscope, line 3, column 28
。このエラーは、指定されていない属性 (例: <input attribute></input>
) があるために発生しますが、Web ページを制御していないため、それを回避できません。
だからここに私の問題を解決できるいくつかの質問があります:
- ツリーを参照するにはどうすればよいですか?
- パーサーの厳密性を下げる方法はありますか?
ありがとうございました !
web-scraping - html5lib: TypeError: __init__() が予期しないキーワード引数 'encoding' を取得しました
をインストールしようとしていhtml5lib
ます。最初は最新バージョン (8 または 9 ナイン) をインストールしようとしましたが、私の BeautifulSoup と競合したため、古いバージョン (0.9999999、セブン ナイン) を試すことにしました。インストールしましたが、使用しようとすると:
エラーが発生します:
何が問題で、どうすればよいですか?
python-2.7 - Web サイトからリンクを抽出する BeautifulSoup ですべてのリンクを見つけることができません (リンク識別)
ここにあるこのコードを使用しています ( Python と BeautifulSoup を使用して Web ページからリンクを取得します) を使用して、Web サイトからすべてのリンクを抽出します。
このサイトhttp://www.bestwestern.com.au をテストとして使用しています。残念ながら、コードが一部のリンクを抽出していないことに気付きました。たとえば、このhttp://www.bestwestern.com.au/about-us/careers/です。どうしてか分かりません。ページのコードで、これが私が見つけたものです。
通常、エクストラクタはそれを識別する必要があると思います。BeautifulSoup のドキュメントには次のように書かれています。入ってくるのを見ましたが、find_all() は [] を返すか、find() は None を返します。これは、Python の組み込み HTML パーサーによくあるもう 1 つの問題で、理解できないタグをスキップすることがあります。繰り返しになりますが、解決策は lxml または html5lib をインストールすることです。」それでhtml5libをインストールしました。しかし、私はまだ同じ行動をしています。
ご協力ありがとうございました
python - BeautifulSoup find_all は 50 件の結果に制限されていますか?
BeautifulSoup を使用してページから結果を取得しようとしています。
この以前の解決策を読みました: Beautiful Soup findAll はそれらをすべて見つけられず 、html.parser、lxml、および html5lib を試しましたが、どれも 50 を超える結果を返しませんでした。助言がありますか?
ありがとうございました