問題タブ [pyquery]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Web スクレイパーの PyQuery コード
Python は初めてですが、Web サイト上のすべての画像をダウンロードする Web スクレーパー スクリプトを作成しようとしています。いくつかの調査の結果、多くの人が推奨しているため、リクエストと PyQuery を使用しています。今持っているのはこれだけで、どこに行けばいいのかわかりません。
img のソースを取得する必要があることはわかっていますが、img タグを見つけた後はどうすればよいですか? また、いくつかの html のページ ソースを表示し、一部の画像がデータベースに保存されているため、src は「/」拡張子で始まるため、完全な URL を取得するにはどうすればよいか疑問に思っていました。
python - pyquery オブジェクトのタグ名を検索
pyquery オブジェクトに関連付けられたタグを見つけるにはどうすればよいですか? 上記の例のメソッド tag() は存在しません...
python - PyQuery get text ノード
この HTML を処理するために PyQuery を使用しています。
への変数e
ポイントを取得した.container
ので、その子をループしています。
しかし、この方法ではテキストノード(2つのText
文字列)を取得できません
テキストノードを含む要素の子をループするにはどうすればよいですか?
python - 名前空間付きの HTML を解析するために lxml を使用していますか?
これは私を完全に狂わせています。私は何時間も苦労してきました。どんな助けでも大歓迎です。
私はPyQuery 1.2.9 (上に構築されている) を使用して、この URLlxml
をスクレイピングしています。セクション内のすべてのリンクのリストを取得したいだけです。.linkoutlist
これは私の要求の全文です:
しかし、それは空の配列を返します。代わりにこのクエリを使用すると:
次に、この HTML を取得します。
したがって、親セレクターは多くの<a>
タグを含む HTML を返します。これも有効な HTML のようです。
xmlns
さらに実験を重ねると、何らかの理由で lxml が最初の div の属性を好まないことがわかります。
lxmlでこれを無視して、通常のHTMLのように解析するにはどうすればよいですか?
更新: 試行ns_clean
中、まだ失敗:
python - ボケ スライダーを使用して html ファイルを解析するときに現在の値を取得する
ボケを使用して、python/numpy で作成した数学関数をプロットしています。
に示すようにスライダーを使用したい
http://docs.bokeh.org/en/latest/docs/server_gallery/sliders_server.html
プロットで html ファイルを作成したら、スライダーでさまざまな値を選択してプロットを変更し、選択した値を python に読み込んで他の操作に使用したいと考えています。
スライダーで選択した値を html ファイルから python に読み込む最良の方法は何ですか?
pyquery が役立つ可能性があることがわかりましたが、実際にはそれを理解できません。
上記のシナリオに基づいて、任意の提案をいただければ幸いです。
python - Requests と lxml を使用した Python Scrape Web サイト..
これを出発点として使用.. http://docs.python-guide.org/en/latest/scenarios/scrape/
すべてが期待どおりに機能します..しかし、....
このエラーが発生します...
パイクエリを使用して....
このエラーをスローします...
Webページからテーブルを取得するのに役立ちます。
python - PyQueryはサブ要素ノードのテキストを見つけます
コードは次のとおりです。
td div
あなたが得るように、要素のコンテンツを取得したいのですが、そうでなければなりません
しかし、私はちょうど得 Traceback (most recent call last):
ました。では、サブラベルが含まれるすべてのテキストを見つけるにはどうすればよいtd div
でしょうか?
python - メッセージを抽出するにはどうすればよいですか?
PyQueryを使用してメッセージを抽出するにはどうすればよいですか?
私はもう試した:
d('#ui-accordion-accordion-panel-0').text()
d('ui-accordion-content.ui-helper-reset.ui-widget-content.ui-corner-bottom.ui-accordion-content-active').text()
d('#accordion#ui-accordion-accordion-panel-0').text()
を使用するd('#accordion').text()
と、その下のすべてのテキストdiv
が表示されるため、最初の例で何も返されない理由がわかりません。