問題タブ [httrack]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

64 問題

0 投票する

1 に答える

803 参照

python - 動的に読み込まれたリンク/画像を含む完全な Web ページを取得する

問題

リンク/画像を動的にロードする Web サイトの完全に機能するオフラインコピーのダウンロード

リサーチ

この問題に対処する Stackoverflowに関する質問 (例[1]、[2]、[3] ) があり、そのほとんどは wgetまたはhttrackを使用してトップの回答を持っていますが、どちらも惨めに失敗します (間違っている場合は修正してください)タグsrcsetの代わりにsrc動的にリンクまたは使用をロードするページ、または JSを介してロードされるもの。imgかなり明白な解決策はSeleniumでしたが、本番環境で Selenium を使用したことがある場合は、そのような決定から生じる問題にすぐに気付き始めます (リソースが重い、ヘッドフルドライバーを使用するのが非常に複雑である、それがビルドされていないという事実)。その）、そうは言っても、何年もの間、本番環境で簡単に使用できたと主張する人々がいます

予想される解決策

リンクのページを解析し、それらを個別にロードするスクリプト (できれば Python)。それを行う既存のスクリプトが見つからないようです。あなたの解決策が「自分で実装する」である場合、そもそも質問するのは無意味です。私は既存の実装を探しています。

例

Shopify.com
Wix を使用して構築されたウェブサイト

2018-04-15T17:11:54.287

1 2 3 4 5 6 7 8 9 10

問題タブ [httrack]

python - 動的に読み込まれたリンク/画像を含む完全な Web ページを取得する

Reference