問題タブ [beautifulsoup]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Beautiful Soup for Ruby に最も近いものは?
Python の Beautiful Soup スクレイピング ライブラリが気に入っています。それだけで機能します。Rubyに近いものはありますか?
python - HTMLエンティティコードからテキストへ
<
&
Python で HTML エンティティ コード (例: ) を含む文字列を通常の文字列 (例: < &)に変換する簡単な方法を知っている人はいますか?
cgi.escape()
は文字列を (不十分に) エスケープしますが、. はありませんunescape()
。
python - Beautiful Soup がこのページを切り詰めているのはなぜですか?
学校の図書館が購読しているリソースのリストから、リソース/データベース名と ID のリストを取得しようとしています。さまざまなリソースをリストしたページがあり、urllib2 を使用してページを取得できますが、そのページを BeautifulSoup に渡すと、リスト内の最初のリソースのエントリが終了する直前でツリーが切り捨てられます。問題は、リソースを検索セットに追加するために使用される画像リンクにあるようです。ここで話が途切れます。HTML は次のとおりです。
そして、ここに私のpythonコードがあります:
BeautifulSoup のバージョンでは、開始<a href...>
は表示されますが、は表示され<img>
ず、<a>
はすぐに閉じられ、残りの開始タグも</html>
.
これらの「セットに追加」画像で見られる唯一の特徴は、名前と id 属性を持つ唯一の画像であるということです。しかし、それによって BeautifulSoup がすぐに解析を停止する理由がわかりません。
注: 私は Python をまったく初めて使用しますが、問題なく理解できているようです。
ご協力ありがとうございました!
python - PythonのURLツリーウォーカー?
Pypi パッケージなどのファイル ツリーを表示する URLの場合、URL ツリーをたどって次のように一覧表示する小さな堅牢なモジュールはありますls -lR
か?
私は、ファイル属性、リンクの種類、サイズ、日付などの標準エンコーディングが html<A
属性にないことを収集します (訂正します)
。
でも、きっとこのホイール(Unix file tree -> html -> treewalk API -> ls -lR or find
)はできているのでは?
(いくつかのスパイダー/Web クローラー/スクレーパーが存在するようですが、解析用の BeautifulSoup にもかかわらず、これまでのところ見苦しくアドホックに見えます)。
python - 複雑な美しいスープ クエリ
以下は、私が Beautiful Soup で調べている HTML ファイルのスニペットです。
内にある and を<a href>
持つ任意の行の を取得したいと思います。<strong class="sans">
<td width="50%">
Beautiful Soup を使用して、これらの複数の条件について HTML ファイルを照会することは可能ですか?
python - BeautifulSoup で要素の値を変更すると、空の要素が返されます
コンテンツを失うことなく、要素のコンテンツ、この場合は変数「make」の要素を変更するにはどうすればよいですか? 既存の xml ドキュメントを変更できる他の純粋な python モジュールを教えていただける場合は、お知らせください。
PS!BeautifulSoup は、HTML と XML の両方のスクリーンスクレイピングと解析に最適です。
python - HTMLエンティティをシンボルに変換する方法は?
私はこの答えからスクリプトにいくつかの適応をしました。そして私はユニコードに問題があります。いくつかの質問は、うまく書かれていません。
一部の回答と回答は、次のようになります。
Yeah.. I know.. I’m a simpleton.. So what’s a Singleton? (2)
’
を正しい文字に翻訳するにはどうすればよいですか?
注:それが重要な場合は、フランス語のウィンドウでpython2.6を使用しています。
編集1: Ryan Ginstromの投稿に基づいて、出力の一部を修正することができましたが、Pythonのユニコードに問題があります。
アイドル/Pythonシェルの場合:
ええ..私は知っています..私はシンプトンです..それで、シングルトンは何ですか?
テキストファイルで、stdoutをリダイレクトする場合
ええ..私は知っています..私はシンプルトンです..では、シングルトンとは何ですか?
どうすれば修正できますか?
Edit2: Jarret Hardieのソリューションを試しましたが、何もしませんでした。私はWindowsを使用しており、Python 2.6を使用しているため、site-packagesフォルダーは次の場所にあります。
C:\ Python26 \ Lib \ site-packages
siteconfig.pyファイルがなかったので、ファイルを作成し、Jarret Hardieから提供されたコードを貼り付け、Pythonインタープリターを起動しましたが、ロードされていないようです。
sys.getdefaultencoding()'ascii'
にsite.pyファイルがあることに気づきました:
C:\ Python26 \ Lib \ site.py
関数のエンコーディングを変更してみました
エンコーディングをutf-8に設定します。それは機能しました(もちろんPythonの再起動後)。
悲しいことに、それは私のプログラムの文字を修正しませんでした。:(
python - python-beautifulsoupは私のhtmlを誤って報告していますか?
私の知る限りでは、それぞれ 2 台のマシンがあり、python 2.5 と BeautifulSoup 3.1.0.1 を実行しています。
以下を使用してhttp://utahcritseries.com/RawResults.aspxをスクレイピングしようとしています:
私の Windows マシンでは、日付とイベント名のリストである正しい結果が得られます。私のMacでは、そうではありません。代わりに、私は得る
私が気づいているのは、
私の Windows マシンでは、tr データはソース html とまったく同じに見えます。テーブルの 2 行目の style タグに注意してください。最初の 2 行は次のとおりです。
私の Mac では、最初の 2 行を印刷すると、スタイル情報が tr タグから削除され、各 td フィールドに移動されます。なぜこれが起こっているのかわかりません。BeautifulSoup が他のすべての日付の周りにフォント タグを配置しているため、他のすべての日付値に対して None を取得しています。macの出力は次のとおりです。
Windows でスクリプトが正しい結果を表示しています - Mac を正しく動作させるにはどうすればよいですか?
python - Pythonで範囲を動的に変更しますか?
たとえば、ページを解析するために BeautifulSoup を使用しているとします。私のコードでは、1 つのクエリに対して少なくとも 7 ページあることがわかります。
ページネーションは次のようになります
7ページまでページネーションすると、7ページを超える場合があるため、7ページにいる場合、ページネーションは次のようになります
これで、少なくともあと 3 ページあることがわかりました。私は最初のパスを使用して、get_num_pages が 7 を返すページ数を把握しています。
私がやっているのは、各ページのアイテムを繰り返し処理しているので、次のようなものです
スクリプトが 7 ページを超えると判断した場合、範囲を動的に更新する方法はありますか? 別のアプローチは、カウントを保持し、7 ページに到達したら、それを個別に処理することだと思います。これにアプローチするための最良の方法についての提案と解決策を探しています。