問題タブ [beautifulsoup]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - BeautifulSoup を使用してタグを削除しますが、その内容は保持します
現在、私は次のようなコードを持っています:
無効なタグ内のコンテンツを破棄したくない場合を除きます。タグを取り除き、soup.renderContents() を呼び出すときにコンテンツを保持するにはどうすればよいですか?
python - Python と BeautifulSoup、「a」が見つからない
これはHTMLコードの一部です(おいしいから):
class="inlinesave action" であるすべてのリンクを見つけようとしています。コードは次のとおりです。
しかし、何も見つかりません!
何かご意見は?
ありがとう
html - HTMLページで小さなWebフォームをデザインする方法
Web フォームを設計すると、Web フォームが Web ページよりも非常に小さいことがわかります。これは、フォームには 2 つのフィールド (2 つのテキスト ボックスと 2 つのラベル) しかないためです。それから彼は美しく見えます。
python - このXPath式をBeautifulSoupに変換するにはどうすればよいですか?
前の質問に答えて、何人かの人々は私が私のプロジェクトにBeautifulSoupを使うことを提案しました。私は彼らのドキュメントに苦労していて、それを解析することはできません。この式をBeautifulSoup式に変換できるはずのセクションを誰かに教えてもらえますか?
上記の式はScrapyからのものです。そこからリンクを取得するために正規表現re('\.a\w+')
を適用しようとしています。td class altRow
他のチュートリアルやドキュメントへのポインタもいただければ幸いです。何も見つかりませんでした。
ご協力いただきありがとうございます。
編集: 私はこのページを見ています:
それでも、ページのソースを見ると、次のようになっています"/cabel"
。
何らかの理由で、検索結果はBeautifulSoupには表示されませんが、hxs.select('//td[@class="altRow"][2]/a/@href').re('/.a\w+')
「/ cabel」をキャッチするため、XPathには表示されます。
編集: cobbal:それはまだ機能していません。しかし、私がこれを検索すると:
2番目の文字「a」を含むすべてのリンクを返しますが、弁護士名は返しません。したがって、何らかの理由で、これらのリンク( "/ cabel"など)はBeautifulSoupに表示されません。理由がわかりません。
python - Beautifulsoupはテーブルで価値を得る
http://www.co.jefferson.co.us/ats/displaygeneral.do?sch=000104をスクレイプ して、「所有者名」を取得しようとしています。私が持っているものは機能しますが、本当に醜く、最高ではありません。確かに、もっと良い方法を探しています。これが私が持っているものです:
関連するHTMLは
うわー、美しいスープについてたくさんの質問があります、私はそれらを調べましたが、私を助ける答えを見つけられませんでした、うまくいけばこれは重複した質問ではありません
python - これらのエラーとは何ですか?どのように処理しますか?
私はこの単純なコードを使用しています
約200のURLを開き、正規表現(およびBeautifulSoup)で検索しますが、12ほど後にこれらのエラーが発生し、IDLEが終了します。それらはどういう意味ですか?どうすればそれらを処理できますか?
ありがとうございました。
python - Beautifulsoup の 2 つの「findAll」検索ブロックを 1 つに結合できますか?
これらの 2 つのブロックを 1 つに結合できますか:
編集:Yacobyが回答で行ったようにループを結合する以外の方法。
また、複数のブロックを1つにすることもできます:
または、配列であるか、他のより単純な方法であるかを確認できるラムダ式があるかもしれません。
また、class は予約済みキーワードであるため、属性 class を持つタグを見つけるにはどうすればよいですか。
編集: この部分は、soup.findAll(attrs={'class': 'noprint'}) によって解決されます:
python - カンマ区切りのリストをリンク付きで分割し、beautifulsoupを使用します
HTMLドキュメントのテーブルセルにコンマ区切りのリストがありますが、リスト内のいくつかの項目がリンクされています。
私は美しいスープを使用してhtmlを解析してきましたが、テーブルにアクセスできますが、それを分割してデータ構造を返すための最良の方法は次のようになります。
python - Pythonとbeautifulsoupを使用してスクリプトタグを解析する方法
document.write
次のように、ページの関数内にあるフレームタグの属性を抽出しようとしています:
findAll('frame')
メソッドは役に立ちませんでした。フレームタグの内容を読み取る方法はありますか?
Python 2.5 と BeautifulSoup 3.0.8 を使用しています。
結果を得ることができる限り、私は BeautifulSoup 3.1 で python 3.1 を使用することにもオープンです。
ありがとう
python - Google App Engine で Python lxml を使用することは可能ですか?
Google App Engine で Python lxml を使用できますか? (または、美しいスープを使用する必要がありますか?)
Beautiful Soup を使い始めましたが、遅いようです。他の Web サイトからデータを「スクリーン スクレイピング」して、ある種の「マッシュアップ」を作成するというアイデアを試し始めたところです。