問題タブ [beautifulsoup]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - BeautifulSoup を使用した HTML 内の検索と置換
BeautfulSoup を使用して検索し、 に置き換え<\a>
たい<\a><br>
。で開き、解析してすべてのタグurllib2
を抽出する方法を知っています。<a>
私がやりたいことは、終了タグを検索して、終了タグと改行で置き換えることです。どんな助けでも大歓迎です。
編集
次のようなものになると思います。
ドキュメントには、次のものがあります。
したがって、次のようになると思います。
しかし、それは機能せず、python help() はあまり役に立ちません
python - BeautifulSoup でインライン コードを編集することはできますか?
Beautifulsoup でテキストを編集できることは知っていますが、href リンクを編集することはできますか? <a href="/foo/bar/">
と言って、beautifulsoup を使用して に変更できるようにしたいと思い<a href="http://www.foobarinc.com/foo/bar/">
ます。これを行うためにbeautifulsoupを使用する方法がわかりませんか?どんな助けでも大歓迎です。
python - Python の BeautifulSoup でのインライン解析
<p>
BeautifulSoup を使用して HTML ドキュメントを作成していますが、インライン テキスト (タグ内のテキストなど) を複数行に分割しないようにしたいと考えています。私が得る問題は<p>a<span>b</span>c</p>
、 prettify を使用して解析すると出力が得られることです
そして今、HTMLはa、b、cの間にスペースを表示しますが、これは望ましくありません。どうすればこれを回避できますか?
python - Beautiful Soup と ID による div とその内容の抽出
<div id="articlebody"> ... </div>
これがタグとその間のものを返さないのはなぜですか? 何も返しません。そして、私はそれをじっと見つめているので、それが存在することを事実として知っています
soup.find("div", { "id" : "articlebody" })
も機能しません。
(編集: BeautifulSoup がページを正しく解析していないことがわかりました。これはおそらく、解析しようとしていたページが SGML などで適切にフォーマットされていないことを意味します)
python - BeautifulSoup を使用して、特定のドメインを指すページ内のすべてのリンクを見つけるにはどうすればよいですか?
BeautifulSoup を使用して、特定のドメインを指すページ内のすべてのリンクを見つけるにはどうすればよいですか?
python - Beautifulsoup/Python での pubDate RSS 解析の奇妙さ
Beautifulsoup を使用して RSS/Podcast フィードを解析しようとしていますが、「pubDate」フィールドを解析できないように見えることを除けば、すべてうまく機能しています。
タイトルは正常に解析されますが、pubDate になると、次のように表示されます。
トレースバック (最新の呼び出しが最後): ファイル ""、2 行目、AttributeError: 'NoneType' オブジェクトに属性 'string' がありません
ただし、XML ファイルのコピーをダウンロードして「pubDate」の名前を別の名前に変更し、もう一度解析すると、うまくいくようです。pubDate は Python の予約変数ですか?
ありがとう、
g
python - BeautifulSoupのselfClosingTags
BeautifulSoupを使用してXMLを解析する
これは出力します:
つまり、anneタグはalanタグの子です。
スープを作成するときにselfClosingTags=['alan']を渡すと、次のようになります。
素晴らしい!
私の質問:/>
自己終了タグを示すためにの存在を使用できないのはなぜですか?
python - BeautifulSoup で XML を解析し、欠落している要素を処理する
BeautifulSoupを使用して XML を解析しています。
しかし、last_name がないと問題が発生します。詰まるからです。フィードにある場合もあれば、ない場合もあります。窒息しないようにするにはどうすればよいですか?
try/except ステートメントを使用したくありません。また、if/else ステートメントも使用したくありません。(これらのステートメントがある場合、すでに非常に長いコードの行が2倍になるため)。
「last_name」がない場合に「None」を返す方法はありますか?
python - BeautifulSoupでテーブルを解析し、テキストファイルに書き込む
次の形式のテキスト ファイル (output.txt) のテーブルからのデータが必要です: data1;data2;data3;data4;.....
Celkova podlahova plocha bytu;33m;Vytah;Ano;Nadzemne podlazie;Prizemne podlazie;.....;Forma vlastnictva;Osobne
すべて「1行」で、セパレーターは「;」です(後でcsvファイルにエクスポートします)。
私は初心者です..助けてください、ありがとう。
html - perl用モジュールライクな「htmlアジリティパック」
"html agility pack"(.net) や perl 用の "Beautiful Soup" のような優れたモジュールを推奨できる人はいますか?
前もって感謝します!