問題タブ [bs4]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - BS4 .text を使用せずにテキストを取得するには?
これは、Web サイトのソース コード レイアウトです。
Google Geocoding の番地、ルート、都市を取得したいと考えています。私がこれをしたら
それは を奪い<br />
、都市からルートを分割する方法はありません。もしそうならstr().replace('<br />',', ')
、どうにかして以前の型に戻す必要があるので.text
、 の間の実際のテキストを取得することができますが、<a href>
非効率的です。.text
実際のテキストを取得するために使用する機能を使用したいと思いますが、それを削除する機能は使用しませ<br>
ん。env で呼び出されたファイルが見つからなかったBeautifulSoup.py
ので、GitHub で BeautifulSoup のソース コードdef text
を見ています。
アップデート:
python - 美しいスープを使用して、テキストではなくテキストの内容で要素を検索しますか?
ここと同じように.renderContents
、その値で検索したい: Beautiful Soup [Python] and the extracting of text in a table
サンプル HTML:
私が試したこと:
ただし、このアプリケーションではtext
パラメーターがfind_all
機能しないようです。IndexError: list index out of range
私は何をする必要がありますか?
python - スクレイピングされたページの Python カウント数または文字
を使用して Python でリクエストを作成していますrequests
。
次に、 を使用して、必要なbs4
を選択しますdiv
。その div 内のテキストの長さをカウントしたいのですが、そこから得られる文字列にはすべてのタグも含まれています。次に例を示します。
Text here!
すべてのdiv
anda
タグなしで、のみをカウントしたい。
どうすればそれができるか、誰にも分かりますか?
decode - 日本語の文字が正しくデコードされない
現在、BeautifulSoup4 を使用して日本語の Web サイトをクロールしています。日本語の文字のデコードに問題があります。「~」と「ー」のみ四角形の文字として返されます。この問題を解決する方法を知っている人はいますか? ウェブサイトは「utf-8」でエンコードされています。
解析用のコードは次のとおりです。
前もって感謝します。
python - HTMLデータからテキストを取得するには?
Python 3とbeautifulsoup 4を使用しているときに、すべてのテキストを同じ配置で取得するにはどうすればよいですか。forループを試しましたが、うまくいきませんでした。
私の出力:
私の期待される出力:
意図した出力は青の次に緑ですが、実際の出力は青が 2 回表示されるだけです。出力を適切な色にして、html タグが印刷されないようにするにはどうすればよいですか?
python-2.7 - bs4.element という名前のモジュールがありません
次のように bs4 をインポートするスクリプトがあります。
私は bs4 をインストールしていません。むしろ、スクリプトと同じディレクトリに( http://www.crummy.com/software/BeautifulSoupbs4
から) のディレクトリを含めました。beautifulsoup4-4.4.1
このスクリプトをコマンド プロンプトから直接実行すると (Windows 7 VirtualBox VM 上で)
インポートは問題なく機能します (スクリプトの残りの部分も同様です)。
しかし、このスクリプトは、他の Python コードからモジュールの一部として呼び出される、より大きなフレームワークから実行する必要があります。フレームワークは私の会社が所有しているため、これについてこれ以上具体的に説明することはできません。
私のスクリプトは、bs4 をインポートするところまで正しく呼び出されます。次のエラーが表示されます。
このコードは、上記と同じ Windows 7 VirtualBox VM で実行されます。bs4ディレクトリがオンになっていることを確認しましたPYTHONPATH
(パスはC:\Users\me\path-to-bs4
)。一番上にprintステートメントを追加するとbs4/__init__.py
、出力に結果が表示されるため、bs4が見つかったことがわかります。
私はこの問題の原因について途方に暮れています。誰かが私を正しい方向に向けることができますか?
Python 2.7.6 を使用しています。
python - Google Web結果のスクレイピングが機能しない
次の方法で Google の検索結果をスクレイピングできないのはなぜですか?
をスローする応答を開こうとして失敗していHTTPError
ます。私は他の質問を見てきましたが、私が知る限り、エンコードなどを適切に行っています。
私はキャッチエラーなどを含めていないことを知っています.これは単なる縮小版です.