問題タブ [beautifulsoup]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

28207 問題

0 投票する

3 に答える

32484 参照

python - BeautifulSoup を使用した HTML 内の検索と置換

BeautfulSoup を使用して検索し、に置き換え<\a>たい<\a><br>。で開き、解析してすべてのタグurllib2を抽出する方法を知っています。<a>私がやりたいことは、終了タグを検索して、終了タグと改行で置き換えることです。どんな助けでも大歓迎です。

編集

次のようなものになると思います。

ドキュメントには、次のものがあります。

したがって、次のようになると思います。

しかし、それは機能せず、python help() はあまり役に立ちません

python beautifulsoup

2010-01-15T17:29:56.503

0 投票する

2 に答える

1728 参照

python - BeautifulSoup でインラインコードを編集することはできますか?

Beautifulsoup でテキストを編集できることは知っていますが、href リンクを編集することはできますか? <a href="/foo/bar/">と言って、beautifulsoup を使用してに変更できるようにしたいと思い<a href="http://www.foobarinc.com/foo/bar/">ます。これを行うためにbeautifulsoupを使用する方法がわかりませんか？どんな助けでも大歓迎です。

python beautifulsoup

2010-01-15T23:33:36.270

0 投票する

2 に答える

664 参照

python - Python の BeautifulSoup でのインライン解析

<p>BeautifulSoup を使用して HTML ドキュメントを作成していますが、インラインテキスト (タグ内のテキストなど) を複数行に分割しないようにしたいと考えています。私が得る問題は<p>a<span>b</span>c</p>、 prettify を使用して解析すると出力が得られることです

そして今、HTMLはa、b、cの間にスペースを表示しますが、これは望ましくありません。どうすればこれを回避できますか?

python beautifulsoup html

2010-01-22T22:35:24.357

0 投票する

13 に答える

398726 参照

python - Beautiful Soup と ID による div とその内容の抽出

<div id="articlebody"> ... </div>これがタグとその間のものを返さないのはなぜですか? 何も返しません。そして、私はそれをじっと見つめているので、それが存在することを事実として知っています

soup.find("div", { "id" : "articlebody" })も機能しません。

(編集: BeautifulSoup がページを正しく解析していないことがわかりました。これはおそらく、解析しようとしていたページが SGML などで適切にフォーマットされていないことを意味します)

python beautifulsoup

2010-01-25T22:46:05.383

0 投票する

1 に答える

2436 参照

python - BeautifulSoup を使用して、特定のドメインを指すページ内のすべてのリンクを見つけるにはどうすればよいですか?

BeautifulSoup を使用して、特定のドメインを指すページ内のすべてのリンクを見つけるにはどうすればよいですか?

python beautifulsoup

2010-01-28T00:10:46.350

0 投票する

1 に答える

1377 参照

python - Beautifulsoup/Python での pubDate RSS 解析の奇妙さ

Beautifulsoup を使用して RSS/Podcast フィードを解析しようとしていますが、「pubDate」フィールドを解析できないように見えることを除けば、すべてうまく機能しています。

タイトルは正常に解析されますが、pubDate になると、次のように表示されます。

トレースバック (最新の呼び出しが最後): ファイル ""、2 行目、AttributeError: 'NoneType' オブジェクトに属性 'string' がありません

ただし、XML ファイルのコピーをダウンロードして「pubDate」の名前を別の名前に変更し、もう一度解析すると、うまくいくようです。pubDate は Python の予約変数ですか?

ありがとう、

g

python beautifulsoup

2010-01-30T16:19:24.733

0 投票する

2 に答える

1897 参照

python - BeautifulSoupのselfClosingTags

BeautifulSoupを使用してXMLを解析する

これは出力します：

つまり、anneタグはalanタグの子です。

スープを作成するときにselfClosingTags=['alan']を渡すと、次のようになります。

素晴らしい！

私の質問：/>自己終了タグを示すためにの存在を使用できないのはなぜですか？

python xml beautifulsoup

2010-02-06T01:24:52.900

0 投票する

1 に答える

2863 参照

python - BeautifulSoup で XML を解析し、欠落している要素を処理する

BeautifulSoupを使用して XML を解析しています。

しかし、last_name がないと問題が発生します。詰まるからです。フィードにある場合もあれば、ない場合もあります。窒息しないようにするにはどうすればよいですか？

try/except ステートメントを使用したくありません。また、if/else ステートメントも使用したくありません。（これらのステートメントがある場合、すでに非常に長いコードの行が2倍になるため）。

「last_name」がない場合に「None」を返す方法はありますか?

python xml exception-handling beautifulsoup

2010-02-07T00:56:11.033

0 投票する

2 に答える

33294 参照

python - BeautifulSoupでテーブルを解析し、テキストファイルに書き込む

次の形式のテキストファイル (output.txt) のテーブルからのデータが必要です: data1;data2;data3;data4;.....

Celkova podlahova plocha bytu;33m;Vytah;Ano;Nadzemne podlazie;Prizemne podlazie;.....;Forma vlastnictva;Osobne

すべて「1行」で、セパレーターは「;」です（後でcsvファイルにエクスポートします）。

私は初心者です..助けてください、ありがとう。

python beautifulsoup

2010-02-08T20:23:27.837

0 投票する

1 に答える

266 参照

html - perl用モジュールライクな「htmlアジリティパック」

"html agility pack"(.net) や perl 用の "Beautiful Soup" のような優れたモジュールを推奨できる人はいますか?

前もって感謝します！

html perl beautifulsoup html-agility-pack

2010-02-09T14:13:05.137

1 2 3 4 5 6 7 8 9 10