問題タブ [beautifulsoup]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - BeautifulSoupで特定の子要素を選択します
私はBeautifulSoupを読んで、かなり重いhtmlページをスクリーンスクレイピングしています。BeautifulSoupのドキュメントを調べてみると、子要素を選択する簡単な方法が見つからないようです。
与えられたhtml:
オブジェクトが一番上にあるので、「欲しいコンテンツ」を簡単に取得できる方法が必要です。BeautifulSoupに来るのは簡単だと思いました。topobj.nodes[1].nodes[0].stringのようなものです。代わりに、テキストノードやコメントなどとともに要素を返す変数と関数のみが表示されます。
私は何かが足りないのですか?または、.find()を使用して長い形式に頼る必要がありますか、さらに悪いことに、.contents変数のリスト補完を使用する必要がありますか。
その理由は、Webページの空白が同じであるとは思わないので、それを無視して要素のみをトラバースしたいからです。
python - Pamie と python-win32 の質問 pamie3 が機能しない
現在、いくつかの Web スクレイピング スクリプトを作成しています。そして、私は私のスクリプトを使用するために PAMIE を選択しました。実際、Pythonとプログラミングは初めてです。だから、私がPAMIEを使っているかどうかはわかりません.win32-pythonに関連するスクリプトを作成すると本当に役に立ちます。わかりました私の問題は、スクリプトを作成しているときに、2つの問題に遭遇したことです。まず、スクリプトを Beautifulsoup と PAMIE と連携させたいと思います。または、ネイティブの Internet Explorer インターフェイスを一緒に使用できる場合も問題ありません。
しかし、それは私にはうまくいきません。私はPAMIE3バージョンを使用しています.PAMIE 2bバージョンに変更しても動作しませんでした.
私の 2 番目の問題は、スクリプトを作成しているときに、通常の IE インターフェイスが必要になる場合があることです。PAMIE の IE インターフェイスを通常の IE インターフェイス (InternetExplorer.Application) に変更することはできますか? 新しい IE ウィンドウを開いて通常の IE インターフェイスで作業するのではなく、現在の PAMIE の IE ウィンドウで作業を続けたい。下手な英語でごめんなさい ポール
python - Jython を使用した BeautifulSoup
Jython (2.5.1) で BeautifulSoup (3.1.0.1) を実行しようとしたところ、CPython よりもはるかに遅いことに驚きました。ページ ( http://www.fixprotocol.org/specifications/fields/5000-5999 ) を CPython で解析すると、1 秒弱 (正確には 0.844 秒) かかりました。Jython では 564 秒かかりました。これはほぼ 700 倍です。
誰でもこの結果を確認できますか? Jython が CPython より 700 倍遅く実行されるのは合理的ではないようです。おそらく、私の設定に何か問題があります。
[編集]これをテストするために使用したコードは次のとおりです(当然、上記のHTMLファイルをダウンロードしました):
python - BeautifulSoup - 属性値の抽出
Beautiful Soup から次のようなアンカー タグが表示された場合:
href
属性の値を取得するにはどうすればよいですか?
python - BeautifulSoup の結果に md5 を使用する
重複を避けるために、Web ページで md5 アルゴリズムを使用しようとしています。Beautifulsoup の結果を md5 で消化可能な文字列に変換する簡単な方法はありますか?
どうもありがとう
python - BeautifulSoup でタグを一致させる
美しいスープの結果から「スープ」のタグの数を数えようとしています。正規表現を使いたいのですが、うまくいきません。私が試したコードは次のとおりです。
がre
許可さreg_exp_tag
れず、正規表現エラーの予期しない終了が発生します。
どんな助けでも大歓迎です!
ありがとう
python - BeautifulSoup はページの本文を省略しています
BeautifulSoup newbe... ヘルプが必要
これがコードサンプルです...
url1 を使用すると、ページのすばらしいダンプが得られます。url2(必要なもの)を使用する場合。本体なしで出力を取得します。
何か案は?
python - BeautifulSoup が script タグ内のコンテンツを無視するようにする
私は BeautifulSoup (3.1.0.1) を取得して、タグ内で html を生成する JavaScript を多く含む html ページを解析しようとしています。フラグメントの例は次のようになります。
BeautifulSoup はこれに対処できないようで、onMouseOver=**\"**menuOver_3821();\" の周りの「不正な開始タグ」について不満を言っています。スクリプトブロック内でjavascriptによって生成されたxmlを解析しようとしているようです?!?
BeautifulSoup がスクリプト タグの内容を無視するようにする方法はありますか?
lxml を使用する他の提案を見たことがありますが、Google AppEngine で実行する必要があるため使用できません。
xml - PerlのBeautifulSoup.findAll()
XMLファイルからすべての「NodeGroup」要素を引き出す必要があります。
PythonとBeautifulSoupを使用できる場合は、xmlを解析して、次のように呼び出します。
しかし、私はPerlとPerlのXMLモジュールを使用しているので、XML :: SimpleのXMLInを使用して、各ハッシュキーを再帰的にウォークスルーし、値がハッシュであるかどうかを確認し、「NodeGroup」ハッシュであるかどうかを確認しました。
PerlのXMLモジュールの1つにsoup.findAll()のようなものがあると思いますが、見つかりません。Perlで「soup.findAll('nodegroups')」を実行するにはどうすればよいですか?
python - BeautifulSoup - HTML フリーのコンテンツを簡単に入手する方法
このコードを使用して、ページ内のすべての興味深いリンクを見つけています。
そして、それはその仕事をかなりうまくやっています。残念ながら、そのタグ内には、 font、bなどのネストされたタグがたくさんあります...他のhtmlタグなしで、テキストコンテンツだけを取得したいと思います。
リンクの例:
もちろん、それは醜いです (そして、マークアップは常に同じであるとは限りません!) そして、私は取得したいと思います:
ドキュメントではtext=True
findAll メソッドで使用するように書かれていますが、私の正規表現は無視されます。なんで?どうすれば解決できますか?