問題タブ [bs4]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - TypeError: 'str' オブジェクトは呼び出し可能ではありません
BeautifulSoupを使用してhtmlをjsonに変換するためにプログラムに数行のコードを追加しましたが、それらの追加されたコード行に対してエラーが発生しました。
次のようなエラーが表示されます
コードの実行について。このエラーを解決するための正しいアプローチを教えてください。
python - bs4 を使用してウィクショナリーから要素の一部のみを抽出する
h2タグとh3タグのみを印刷することができました..しかし、最初のh2から2番目のh2タグまでのすべての要素が必要です(これらのタグのデータは英語のみに関連しています)。この写真のように 次に、名詞、動詞などのカテゴリのデータを確認し、存在する場合は印刷します。ここで非常に行き詰まりました。ここまで書いてきたのは
python - スクレイピングと解析後のデータの保存
Beautiful Soup 4を使用して解析したhtmlファイルがあり、これが私が興味のあるセクションです
Name と Mobile を別々に抽出するだけです (これらは解析ツリーで同じレベルにあります)。どうすればいいですか?すでにsoup.find_next_siblingsメソッドを使用してみましたが、データを目的の形式で保存できません( Number と Mobile の2つの別々のリスト)
python - Beautiful Soup ですべてのコメントを見つける方法
この質問は 4 年前に尋ねられましたが、答えは BS4 では古くなっています。
美しいスープを使用して、html ファイル内のすべてのコメントを削除したいと考えています。BS4 は各コメントを特別なタイプのナビゲート可能な文字列として作成するため、次のコードが機能すると考えました。
それでうまくいきませんでした....BS4を使用してすべてのコメントを見つけるにはどうすればよいですか?
python - BeautifulSoup4 を使用して XML 宣言を削除する方法
次のような構造の XHTML ファイルがあります。
私は BeautifulSoup を使用していて、ドキュメントから XML 宣言を削除したいので、次のようになります。
XML 宣言を削除する方法が見つかりません。私が知る限り、Doctype、Declaration、Tag、または NavigableString ではないようです。これを見つけて抽出する方法はありますか?
実際の例として、次のようなコードで Doctype を削除できます (ドキュメント テキストが変数 "html" であると仮定します)。
python - Python リクエストを使用してページをスクレイピングする
Webスクレイピングに問題があります。コードは次のとおりです。
このリクエストの後、私はこれを入れたものとは異なる結果を得ています:
この問題の原因は何ですか? ページのリダイレクトなどに関連するものはありますか?