問題タブ [beautifulsoup]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
844 参照

python - 余分なタグを付けずに、Web サイトのリストからデータを抽出する

作業コード: Python による Google 辞書検索と美しいスープ-> 実行して単語を入力するだけです。

特定のリスト項目から最初の定義を簡単に抽出しました。ただし、単純なデータを取得するには、データを改行で分割し、それをストリップして余分なリスト タグを削除する必要がありました。

私の質問は、上記の文字列操作を行わずに特定のリストに含まれるデータを抽出する方法はありますか?おそらく、まだ見たことのない美しいスープの関数ですか?

これは、コードの関連セクションです。

0 投票する
7 に答える
38065 参照

python - PythonでHTMLを解析する-lxmlまたはBeautifulSoup?これらのどれがどのような目的に適していますか?

私が理解できることから、Pythonの2つの主要なHTML解析ライブラリはlxmlとBeautifulSoupです。私が取り組んでいるプロジェクトにBeautifulSoupを選択しましたが、構文を少し習得して理解しやすくする以外の特別な理由はありません。しかし、多くの人がlxmlを好むようで、lxmlの方が速いと聞いています。

だから私は一方が他方よりも優れているのだろうかと思っていますか?いつlxmlを使用したいのですか?また、BeautifulSoupを使用したほうがよいのはいつですか?検討する価値のある他のライブラリはありますか?

0 投票する
10 に答える
140110 参照

python - BeautifulSoup Grab Visible Webpage Text

基本的に、BeautifulSoupを使用して、Webページに表示されるテキストを厳密に取得したいと思います。たとえば、このWebページは私のテストケースです。そして、私は主に本文(記事)と、たぶんいくつかのタブ名をあちこちで取得したいと思っています。私はこのSOの質問<script>で、私が望まない多くのタグとhtmlコメントを返す提案を試しました。findAll()Webページに表示されるテキストを取得するために、関数に必要な引数を理解できません。

では、スクリプト、コメント、CSSなどを除くすべての表示テキストをどのように見つける必要がありますか?

0 投票する
3 に答える
53031 参照

python - BeautifulSoup を使用して特定のテーブルからすべての行を取得するにはどうすればよいですか?

Python と BeautifulSoup を学習して、Web からデータをスクレイピングし、HTML テーブルを読み取ります。それを Open Office に読み込むと、表 #11 であると表示されます。

BeautifulSoup が好ましい選択のようですが、特定のテーブルとすべての行を取得する方法を誰か教えてもらえますか? モジュールのドキュメントを見てきましたが、理解できません。私がオンラインで見つけた例の多くは、必要以上のことをしているようです。

0 投票する
3 に答える
2425 参照

python - BeautifulSoupでスクレイピングされたhtmlをプリティファイすることはできません

urllib2サイトのコンテンツを取得し、すべてのリンクタグを検索し、上部と下部に小さなHTMLを追加して、それをきれいにするために使用する小さなスクリプトがあります。TypeErrorを返し続けます:シーケンス項目1:予期された文字列、タグが見つかりました。私は周りを見回しました、私は本当に問題を見つけることができません。いつものように、どんな助けでも、大いに感謝します。

これはトレースバックです:

0 投票する
2 に答える
909 参照

python - lxmlのBeautifulSoupのrenderContents()メソッドに相当しますか?

tag.renderContents()lxmlにBeautifulSoupのメソッドに相当するものはありますか?

を使用してみましelement.textたが、子タグも表示され''.join(etree.tostring(child) for child in element)ませんが、子テキストは表示されません。私が見つけた最も近いものはですが、それは私が望まないetree.tostring(element)の開始タグと終了タグをレンダリングします。element

私が見落としている別の方法(またはこれを達成するための代替アプローチ)はありますか?

0 投票する
5 に答える
13814 参照

python - BeautifulSoupからCDataを取得するにはどうすればよいですか?

次のような構造のスクレイピングを行っているWebサイトがあります。CDataブロックから情報を取得できるようにしたいと思います。

私はBeautifulSoupを使用してページから他の情報を引き出しているので、ソリューションがそれで機能する場合は、Pythonの初心者であるため、学習曲線を抑えるのに役立ちます。具体的には、CDataステートメントに隠されている2つの異なるタイプのデータを取得したいと思います。最初は単なるテキストです。正規表現を投げて必要なものを取得できると確信しています。2番目のタイプでは、html要素を含むデータを独自のbeautifulsoupにドロップできれば、それを解析できます。

私はPythonとbeautifulsoupを学んでいるだけなので、CDataだけを提供する魔法の呪文を見つけるのに苦労しています。

0 投票する
2 に答える
23149 参照

python - BeautifulSoup HTML テーブルの解析

このサイトから情報 (html テーブル) を解析しようとしています: http://www.511virginia.org/RoadConditions.aspx?j=All&r=1

現在、私は BeautifulSoup を使用しており、私が持っているコードは次のようになります

問題は、開始列と終了列にあります。それらは「なし」として印刷されます

出力:

それらが列リストに保存されることは知っていますが、余分なリンクタグが次のような元のhtmlでの解析を台無しにしているようです:

したがって、印刷する必要があるのは次のとおりです。

任意の提案やヘルプをいただければ幸いです。事前に感謝します。

0 投票する
1 に答える
1902 参照

python - Python と Beautiful Soup を使用して条件付きでデータを取得する方法

これが尋ねられたと思われる場合は申し訳ありませんが、関連する質問を読みましたが、Python にまったく慣れていないため、この要求をきれいな方法で記述する方法が見つかりませんでした。

今のところ、この最小限の Python コードがあります。

href に単語 player が含まれるすべてのリンクを取得します。

解析する必要がある HTML は次のようになります。

1 にはプレイヤーのランクが含まれます。このデータを辞書で取得できるようにしたいと思います。

  • ランク
  • プレイヤーの名前
  • 詳細ページへのリンク (こちら /Tennis/Players/Top-Players/Roger-Federer.aspx)

いくつかの指針を教えていただけますか、それともコードを作成するのに十分簡単であるかどうかを教えてください。Beautiful Soup でのリクエストの作成方法がわかりません。

アンソニー