問題タブ [httrack]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 動的に読み込まれたリンク/画像を含む完全な Web ページを取得する
問題
リンク/画像を動的にロードする Web サイトの完全に機能するオフライン コピーのダウンロード
リサーチ
この問題に対処する Stackoverflowに関する質問 (例[1]、[2]、[3] ) があり、そのほとんどはwgetまたはhttrackを使用してトップの回答を持っていますが、どちらも惨めに失敗します (間違っている場合は修正してください)タグsrcset
の代わりにsrc
動的にリンクまたは使用をロードするページ、または JSを介してロードされるもの。img
かなり明白な解決策はSeleniumでしたが、本番環境で Selenium を使用したことがある場合は、そのような決定から生じる問題にすぐに気付き始めます (リソースが重い、ヘッドフル ドライバーを使用するのが非常に複雑である、それがビルドされていないという事実)。その)、そうは言っても、何年もの間、本番環境で簡単に使用できたと主張する人々がいます
予想される解決策
リンクのページを解析し、それらを個別にロードするスクリプト (できれば Python)。それを行う既存のスクリプトが見つからないようです。あなたの解決策が「自分で実装する」である場合、そもそも質問するのは無意味です。私は既存の実装を探しています。
例
- Shopify.com
- Wix を使用して構築されたウェブサイト