問題タブ [python-requests-html]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
9928 参照

javascript - Python Requests-HTML Render() - コンテンツなし

次のような html で参照されているアプリによってコンテンツがレンダリングされているように見えるページをスクレイピングしたいと思います。

Requests-HTML python ライブラリの render() メソッドを次のように使用しています。

このコードは、ページの HTML をエラーなしで返しますが、コンテンツ (HTML タグのみ) も含みません。ノート:

  • session.get にタイムアウト引数を追加して、ページにアクセスする前にページをレンダリングする時間を増やしたり、上記の構文の他のバリエーションを追加しようとしました。

  • また、この回答に基づいてヘッダーにユーザーエージェント情報を追加しようとしました(自動スクレイプの拒否を回避するため)

  • render() を最初に実行したときに、クロム ブラウザがダウンロードされました。

エラー メッセージが表示されないことに困惑しており、別のサイトでテストするためにこの要求のコンテキストを複製するのは困難です。

解決方法に関する具体的な提案、またはトラブルシューティングの方法に関するアイデアをいただければ幸いです。(Python 3.6、Mac OS)

0 投票する
0 に答える
905 参照

python - Python html-requests render() が JavaScript 要素をレンダリングしない

ログインを必要とするだけでなく、コアデータがjavascriptおよびXHRファイルでレンダリングされるWebサイトをスクレイピングしようとしています。html-requestsライブラリを使用していますが、render()関数は Web ページに影響を与えないようです。これが私のコードです:

これは返された html です (重要な部分):

データをフェッチしているように見えますが、javascript の経験がないため、すべてのスクリプトを解読することはできませんでした。これらのスクリプトが実行されていない理由、または代替ソリューション (十分に高速) についての説明をいただければ幸いです。