問題タブ [bs4]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
3803 参照

python - BS4 .text を使用せずにテキストを取得するには?

これは、Web サイトのソース コード レイアウトです。

Google Geocoding の番地、ルート、都市を取得したいと考えています。私がこれをしたら

それは を奪い<br />、都市からルートを分割する方法はありません。もしそうならstr().replace('<br />',', ')、どうにかして以前の型に戻す必要があるので.text、 の間の実際のテキストを取得することができますが、<a href>非効率的です。.text実際のテキストを取得するために使用する機能を使用したいと思いますが、それを削除する機能は使用しませ<br>ん。env で呼び出されたファイルが見つからなかったBeautifulSoup.pyので、GitHub で BeautifulSoup のソース コードdef textを見ています。

アップデート:

0 投票する
1 に答える
83 参照

python - 美しいスープを使用して、テキストではなくテキストの内容で要素を検索しますか?

ここと同じように.renderContents、その値で検索したい: Beautiful Soup [Python] and the extracting of text in a table

サンプル HTML:

私が試したこと:

ただし、このアプリケーションではtextパラメーターがfind_all機能しないようです。IndexError: list index out of range

私は何をする必要がありますか?

0 投票する
1 に答える
1382 参照

python - スクレイピングされたページの Python カウント数または文字

を使用して Python でリクエストを作成していますrequests

次に、 を使用して、必要なbs4を選択しますdiv。その div 内のテキストの長さをカウントしたいのですが、そこから得られる文字列にはすべてのタグも含まれています。次に例を示します。

Text here!すべてのdivandaタグなしで、のみをカウントしたい。

どうすればそれができるか、誰にも分かりますか?

0 投票する
0 に答える
62 参照

decode - 日本語の文字が正しくデコードされない

現在、BeautifulSoup4 を使用して日本語の Web サイトをクロールしています。日本語の文字のデコードに問題があります。「~」と「ー」のみ四角形の文字として返されます。この問題を解決する方法を知っている人はいますか? ウェブサイトは「utf-8」でエンコードされています。

解析用のコードは次のとおりです。

前もって感謝します。

0 投票する
1 に答える
168 参照

python - HTMLデータからテキストを取得するには?

Python 3とbeautifulsoup 4を使用しているときに、すべてのテキストを同じ配置で取得するにはどうすればよいですか。forループを試しましたが、うまくいきませんでした。

私の出力:

私の期待される出力:

意図した出力は青の次に緑ですが、実際の出力は青が 2 回表示されるだけです。出力を適切な色にして、html タグが印刷されないようにするにはどうすればよいですか?

0 投票する
1 に答える
565 参照

python-2.7 - bs4.element という名前のモジュールがありません

次のように bs4 をインポートするスクリプトがあります。

私は bs4 をインストールしていません。むしろ、スクリプトと同じディレクトリに( http://www.crummy.com/software/BeautifulSoupbs4から) のディレクトリを含めました。beautifulsoup4-4.4.1

このスクリプトをコマンド プロンプトから直接実行すると (Windows 7 VirtualBox VM 上で)

インポートは問題なく機能します (スクリプトの残りの部分も同様です)。

しかし、このスクリプトは、他の Python コードからモジュールの一部として呼び出される、より大きなフレームワークから実行する必要があります。フレームワークは私の会社が所有しているため、これについてこれ以上具体的に説明することはできません。

私のスクリプトは、bs4 をインポートするところまで正しく呼び出されます。次のエラーが表示されます。

このコードは、上記と同じ Windows 7 VirtualBox VM で実行されます。bs4ディレクトリがオンになっていることを確認しましたPYTHONPATH(パスはC:\Users\me\path-to-bs4)。一番上にprintステートメントを追加するとbs4/__init__.py、出力に結果が表示されるため、bs4が見つかったことがわかります。

私はこの問題の原因について途方に暮れています。誰かが私を正しい方向に向けることができますか?

Python 2.7.6 を使用しています。

0 投票する
2 に答える
480 参照

python - Google Web結果のスクレイピングが機能しない

次の方法で Google の検索結果をスクレイピングできないのはなぜですか?

をスローする応答を開こうとして失敗していHTTPErrorます。私は他の質問を見てきましたが、私が知る限り、エンコードなどを適切に行っています。

私はキャッチエラーなどを含めていないことを知っています.これは単なる縮小版です.