問題タブ [bs4]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
47 参照

python - Python // 正規表現 // タグ

の間からテキストを抽出しようとしています

BeautifulSoup (BS4) text = first_td.renderContents() trimmed_text = text.strip() print trimmed_text を使用してテキストを抽出しました。<tdただし、タグの後の最初のテキストしか取得しません。それにもかかわらず、できれば列(配列)でソートされた、タグ内のすべてのテキストを抽出したいと思います。BS を使用してうまくいかなかった後、Regex が最適だと思いました。ちょっとしたことですが、私は絶対的な正規表現のアマチュアです...

テキストをそこに出す方法はありますか?

0 投票する
1 に答える
65 参照

python - Python // BS4 // タグ

次の html がある場合:

使った

しかし、それから私は得ました

TEXT_1b、TEXT_2b...TEXT_nb を削除するにはどうすればよいですか。さらに、配列を持ちたくないのですが、N1 = TEXT_1a、N2 = TEXT_2a...Nn = TEXT_na

0 投票する
1 に答える
2190 参照

regex - BeautifulSoup findall 正規表現を使用してクラスAまたはクラスBを見つける

class="A" と class="B" を順番に見つけようとしています。つまり、OR 演算子を使用して、結果を適切な順序で出力したいと考えています。ここに私の試みと結果があります:

すべての試行で結果として空のリストが返されましたが、46 の結果があるはずです。両方のクラスを個別に行うことはできますが、同時に行う方法がわかりません。liこれらは 2 つのクラスであり、同時に同じものではなく、異なる結果を出力する 2 つの異なるクラスであることに注意することが重要です。

これまでのところ、スタックオーバーフローの回答は機能していません。私はpython 3.4とBeautifulsoup 4で作業しています

0 投票する
2 に答える
1070 参照

python - Python Beautifulsoup CSS セレクターが機能しない

Web ページのソースの特定のタグで CSS セレクターを使用しようとしています。これは私が今持っているものです:

ページ ソースには「blockquote」というタグが 1 つしかありませんが、次のエラーが表示されます。

私はぐるぐる回って、彼らが書いただけの問題を抱えている何人かの人々を見つけました

それ以外の

しかし、私はすでに持っています

これは私のpythonディストリビューションに適しています。このインポートを使用する別のプログラムがあり、正常に動作するためです。

セレクターを正しく使用していないだけですか?

0 投票する
1 に答える
97 参照

python - python webcrawlerを無限にしてリンクを一度記録する方法

thenewboston の助けを借りて、Python で素敵な小さな Web クローラーを作成することができました。彼のビデオを見た後、私はそれをいじっていくつかのものを追加しました。記録されたすべてのリンクのすべてのリンクを取得するため、無限にしようとしましたが、失敗しました。同じリンクを複数回記録するという問題もありますか? この問題を解決するにはどうすればよいですか?

これは私のコードです。

0 投票する
1 に答える
869 参照

python - タグ内のテキストの次のコンテンツを取得する

0 投票する
1 に答える
919 参照

python - 存在する場合、同じレベルで次の兄弟を見つける

同じレベルにいる場合にのみ、次の兄弟を取得できるかどうかに興味があります。

重要なのは、後にテキストLast Made at : </b>がある場合とない場合があるということです。

私はこれをします:

問題は、タグの後に別の兄弟がない場合</b>、別のタグから不要なデータを返すこと<font>です。

使用できることはわかっていますfont.contentsが、私の場合は次のようなより良いオプションになります

オプションが見つからなかったので、この場合に役立つ何かがあるかどうか尋ねています。