問題タブ [bs4]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

387 問題

0 投票する

1 に答える

52 参照

python - タグのクラスで直接検索美汁

綺麗なスープを使って特定のクラスで特定のものだけを素早く取得しようとしてspansおり、クラスで検索することはできないようですが、ID で検索できます。

もちろん、これはあまり論理的ではないように見えますが、ドキュメントには代替案がありません。スープには口述があることを知っていattrsます。私は何か速いものが欲しいです。ありがとうございました

2016-02-18T14:11:50.387

0 投票する

3 に答える

5790 参照

javascript - Beautiful Soup を使用して Google 検索からデータ/リンクを取得する

イブニングの人々、

Google に質問して、関連するすべてのリンクを Google の信頼できる検索クエリから取得しようとしています (つまり、「site: Wikipedia.com Thomas Jefferson」を検索すると、wiki.com/jeff、wiki.com/tom、等。）

これが私のコードです：

ここでの目標は、クエリ変数を設定し、Python で Google にクエリを実行して、必要に応じて Beautiful Soup がすべての「緑色」のリンクを取得することです。

これはGoogleの結果ページの写真です

緑色のリンクを完全に引き出したいだけです。奇妙なのは、Google のソースコードが「隠されている」ことです (検索アーキテクチャの兆候です)。そのため、Beautiful Soup は、h3 タグから href を取得することはできません。要素を検査すると h3 href が表示されますが、ソースを表示すると表示されません。

これは検査要素の写真です

私の質問は次のとおりです: ソースコードにアクセスできず、Inspect Element のみにアクセスできない場合、BeautifulSoup を介して Google から最も関連性の高い上位 5 つの緑色のリンクを取得するにはどうすればよいですか?

PS: 私が何を達成しようとしているのかを理解するために、私のような 2 つの比較的近いスタックオーバーフローの質問を見つけました。

美しいスープ Google検索からhrefを抽出

Pythonを使って綺麗なスープでGoogle検索のデータを集める方法

javascript python html beautifulsoup bs4

user5112307

2016-02-23T22:55:30.773

0 投票する

1 に答える

86 参照

python - リンクから画像を取得するには？

このコードで画像タグに到達しようとすると、次の出力が得られます。

出力

しかし、Inspect Element を見ていると、そこにあります。画像の保存方法がわかりません。

アップデート

上記は私のために働いた。

python selenium selenium-webdriver beautifulsoup bs4

2016-02-28T05:41:14.333

0 投票する

1 に答える

1086 参照

html - Beautiful Soup で次のページを解析するには?

以下のコードを使用して、次のページでページを解析します。

しかし、次のようなエラーが発生しました。リンクがある場合、次のリンクを解析するにはどうすればよいですか。

html python-3.x web-scraping bs4

2016-03-04T12:55:58.363

0 投票する

0 に答える

73 参照

python - BeautifulSoup を使用して Web ページを取得する際に数値の書式を維持するにはどうすればよいですか?

上付き文字、分子および分母形式の分数を含む Web ページを取得しようとしています。取得したコンテンツをドキュメントファイルに保存しています。そのために、python-docx モジュールを使用しています。例のために。式 112 x 5 ⁴は 112 x 54 として保存され、分数 ¼ は 1 (改行)(タブ) 4 として保存されます。Python 3.5 および Windows 8.1 OS を使用しています。

コード-

python python-3.x urllib python-docx bs4

2016-03-07T10:13:04.770

0 投票する

2 に答える

112 参照

python - BS4のWebページから「a」または「href」タグのない複数のURLを抽出する

Flickr.com にアクセスし、ユーザーが入力した用語を検索して、それらすべての画像の URL を出力する単純なプログラムを Selenium で作成しています。

画像の URL だけを取得して、最後の部分で苦労しています。class_=URL が存在する HTML の部分を取得するために検索を使用してきました。「apples」を検索すると、次のように複数回返されます。

私が望むのは、各画像の URL が次のようになることだけです。

aまたはhreftragsがないため、それらを除外するのに苦労しています。

最後に、次のような正規表現も試してみました。

しかし、それはうまくいきませんでした。

とにかく、これが私の完全なコードです、ありがとう。

私の変更されたコード:

python regex beautifulsoup bs4

2016-03-10T03:57:44.047

1 2 3 4 5 6 7 8 9 10

問題タブ [bs4]

python - タグのクラスで直接検索 美汁

javascript - Beautiful Soup を使用して Google 検索からデータ/リンクを取得する

python - リンクから画像を取得するには？

html - Beautiful Soup で次のページを解析するには?

python - BeautifulSoup を使用して Web ページを取得する際に数値の書式を維持するにはどうすればよいですか?

python - BS4のWebページから「a」または「href」タグのない複数のURLを抽出する

Reference

python - タグのクラスで直接検索美汁