問題タブ [beautifulsoup]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pythonを使用したHTMLエンティティのデコード
ここNYTimes.comからHTMLエントリをデコードしようとしていますが、何が間違っているのか理解できません。
たとえば、次のようにします。
BeautifulSoup、decode('iso-8859-1')、およびdjango.utils.encodingのsmart_strを試しましたが、成功しませんでした。
python - オブジェクトに他のクラスがある場合、BeautifulSoupはCSSクラスを見つけることができません
ページに<div class="class1">
とがある<p class="class1">
場合は、soup.findAll(True, 'class1')
両方が見つかります。
<p class="class1 class2">
ただし、ある場合は見つかりません。他のクラスがあるかどうかに関係なく、特定のクラスを持つすべてのオブジェクトを見つけるにはどうすればよいですか?
javascript - javascriptのサポートを必要とするWebスクレイピングサイト
フォーム入力やWebスクレイピングなどのタスクを実行したいだけですが、JavaScriptのサポートが必要なサイトで実行します。また、同じセッションでフォームやスクレイプなどを入力する必要があります。理想的には、コマンドラインからWebブラウザを制御する方法が必要です。また、これらすべてにLinuxのみを使用したいので、.NETは使用できません。
Python用のwebbrowserライブラリを見つけましたが、その機能は非常に制限されているように見えます。それがmechanizeとBeautifulSoupとインターフェースできるとしたら、それは素晴らしいことです。助言がありますか?ありがとう!
php - PHP用のMechanizeとBeautifulSoup?
MechanizeやBeautifulSoupforPHPのようなものがあるかどうか疑問に思いましたか?
python - urlopen、BeautifulSoup、および UTF-8 の問題
Web ページを取得しようとしているところですが、なぜか HTML ファイルに外国語の文字が埋め込まれています。「ソースの表示」を使用すると、この文字は表示されません。
私も試しました...
このエラーを発生させずに、この Web ページを BeautifulSoup に読み込むにはどうすればよいですか?
python - BeautifulSoupの「OR」構文に相当するlxml?
いくつかのhtml解析コードをBeautifulSoupからlxmlに変換しています。次のBeautifulSoupステートメントのlxmlと同等の構文を理解しようとしています。
基本的に、「currentzzt」または「zzt」のいずれかのクラス属性を持つドキュメント内のすべての「a」タグを検索したいと思います。BeautifulSoupを使用すると、リスト、辞書、または正規表現を渡して一致を実行できます。
lxmlに相当するものは何ですか?
ありがとう!
python - 属性を持つ HTML タグを含む Python Web スクレイピング
出版物の Web ページを解析して著者を抽出する Web スクレーパーを作成しようとしています。Web ページの骨格構造は次のとおりです。
これまでのところ、このタスクを達成するために BeautifulSoup と lxml を使用しようとしましたが、2 つの div タグと td タグには属性があるため、どのように処理すればよいかわかりません。これに加えて、BeautifulSoup と lxml のどちらに頼るべきか、あるいは両方の組み合わせに頼るべきかわかりません。私は何をすべきか?
現時点では、私のコードは以下のようになります。
多くの import ステートメントが冗長である可能性があることは認識していますが、現在持っているものをより多くのソース ファイルにコピーしただけです。
編集:私はこれを明確にしていないと思いますが、ページにスクレイピングしたいタグが複数あります。
python - Python で BeautifulSoup を使用してデータを解析する
BeautifulSoup を使用して DOM ツリーを解析し、作成者の名前を抽出しようとしています。以下は、これからスクレイピングするコードの構造を示す HTML のスニペットです。
私の混乱のポイントは、soup.find を実行すると、検索している div タグの最初の出現が検出されることです。その後、すべての 'a' リンク タグを検索します。この段階で、各リンク タグから著者名を抽出して出力するにはどうすればよいでしょうか。BeautifulSoup を使用してそれを行う方法はありますか、それとも正規表現を使用する必要がありますか? 他のすべての div タグを繰り返し処理し、著者名を抽出するにはどうすればよいですか?
python - Web サイトをスクレイピングするには、どのピュア Python ライブラリを使用すればよいですか?
現在、いくつかの Web サイトをスクレイピングするために使用される Ruby コードがいくつかあります。私がRubyを使っていたのは、当時あるサイトでRuby on Railsを使っていたからで、それが理にかなっているのです。
今、私はこれを Google App Engine に移植しようとしていますが、行き詰まり続けています。
Google App Engine で動作するように Python Mechanize を移植しましたが、XPATH を使用した DOM インスペクションをサポートしていません。
組み込みの ElementTree を試してみましたが、'&mdash' に遭遇したときに最初に指定した HTML BLOB で停止しました。
そこで ElementTree をハッキングしようとしますか、それとも何か他のものを使用しようとしますか?
ありがとう、マーク
python - BeautifulSoupが自己閉鎖要素を変更するのはなぜですか?
これは私が持っているスクリプトです:
実行すると、次のように出力されます。
同じ構造を維持したいのですが。どうやってやるの?