問題タブ [beautifulsoup]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
22414 参照

python - Pythonを使用したHTMLエンティティのデコード

ここNYTimes.comからHTMLエントリをデコードしようとしていますが、何が間違っているのか理解できません。

たとえば、次のようにします。

BeautifulSoup、decode('iso-8859-1')、およびdjango.utils.encodingのsmart_strを試しましたが、成功しませんでした。

0 投票する
4 に答える
15738 参照

python - オブジェクトに他のクラスがある場合、BeautifulSoupはCSSクラスを見つけることができません

ページに<div class="class1">とがある<p class="class1">場合は、soup.findAll(True, 'class1')両方が見つかります。

<p class="class1 class2">ただし、ある場合は見つかりません。他のクラスがあるかどうかに関係なく、特定のクラスを持つすべてのオブジェクトを見つけるにはどうすればよいですか?

0 投票する
2 に答える
2708 参照

javascript - javascriptのサポートを必要とするWebスクレイピングサイト

重複の可能性:
Javascriptが多いWebページからのスクリーンスクレイピング

フォーム入力やWebスクレイピングなどのタスクを実行したいだけですが、JavaScriptのサポートが必要なサイトで実行します。また、同じセッションでフォームやスクレイプなどを入力する必要があります。理想的には、コマンドラインからWebブラウザを制御する方法が必要です。また、これらすべてにLinuxのみを使用したいので、.NETは使用できません。

Python用のwebbrowserライブラリを見つけましたが、その機能は非常に制限されているように見えます。それがmechanizeとBeautifulSoupとインターフェースできるとしたら、それは素晴らしいことです。助言がありますか?ありがとう!

0 投票する
2 に答える
16482 参照

php - PHP用のMechanizeとBeautifulSoup?

MechanizeやBeautifulSoupforPHPのようなものがあるかどうか疑問に思いましたか?

0 投票する
2 に答える
10262 参照

python - urlopen、BeautifulSoup、および UTF-8 の問題

Web ページを取得しようとしているところですが、なぜか HTML ファイルに外国語の文字が埋め込まれています。「ソースの表示」を使用すると、この文字は表示されません。

私も試しました...

このエラーを発生させずに、この Web ページを BeautifulSoup に読み込むにはどうすればよいですか?

0 投票する
1 に答える
2335 参照

python - BeautifulSoupの「OR」構文に相当するlxml?

いくつかのhtml解析コードをBeautifulSoupからlxmlに変換しています。次のBeautifulSoupステートメントのlxmlと同等の構文を理解しようとしています。

基本的に、「currentzzt」または「zzt」のいずれかのクラス属性を持つドキュメント内のすべての「a」タグを検索したいと思います。BeautifulSoupを使用すると、リスト、辞書、または正規表現を渡して一致を実行できます。

lxmlに相当するものは何ですか?

ありがとう!

0 投票する
4 に答える
8867 参照

python - 属性を持つ HTML タグを含む Python Web スクレイピング

出版物の Web ページを解析して著者を抽出する Web スクレーパーを作成しようとしています。Web ページの骨格構造は次のとおりです。

これまでのところ、このタスクを達成するために BeautifulSoup と lxml を使用しようとしましたが、2 つの div タグと td タグには属性があるため、どのように処理すればよいかわかりません。これに加えて、BeautifulSoup と lxml のどちらに頼るべきか、あるいは両方の組み合わせに頼るべきかわかりません。私は何をすべきか?

現時点では、私のコードは以下のようになります。

多くの import ステートメントが冗長である可能性があることは認識していますが、現在持っているものをより多くのソース ファイルにコピーしただけです。

編集:私はこれを明確にしていないと思いますが、ページにスクレイピングしたいタグが複数あります。

0 投票する
2 に答える
18940 参照

python - Python で BeautifulSoup を使用してデータを解析する

BeautifulSoup を使用して DOM ツリーを解析し、作成者の名前を抽出しようとしています。以下は、これからスクレイピングするコードの構造を示す HTML のスニペットです。

私の混乱のポイントは、soup.find を実行すると、検索している div タグの最初の出現が検出されることです。その後、すべての 'a' リンク タグを検索します。この段階で、各リンク タグから著者名を抽出して出力するにはどうすればよいでしょうか。BeautifulSoup を使用してそれを行う方法はありますか、それとも正規表現を使用する必要がありますか? 他のすべての div タグを繰り返し処理し、著者名を抽出するにはどうすればよいですか?

0 投票する
5 に答える
1958 参照

python - Web サイトをスクレイピングするには、どのピュア Python ライブラリを使用すればよいですか?

現在、いくつかの Web サイトをスクレイピングするために使用される Ruby コードがいくつかあります。私がRubyを使っていたのは、当時あるサイトでRuby on Railsを使っていたからで、それが理にかなっているのです。

今、私はこれを Google App Engine に移植しようとしていますが、行き詰まり続けています。

Google App Engine で動作するように Python Mechanize を移植しましたが、XPATH を使用した DOM インスペクションをサポートしていません。

組み込みの ElementTree を試してみましたが、'&mdash' に遭遇したときに最初に指定した HTML BLOB で停止しました。

そこで ElementTree をハッキングしようとしますか、それとも何か他のものを使用しようとしますか?

ありがとう、マーク

0 投票する
1 に答える
655 参照

python - BeautifulSoupが自己閉鎖要素を変更するのはなぜですか?

これは私が持っているスクリプトです:

実行すると、次のように出力されます。

同じ構造を維持したいのですが。どうやってやるの?