問題
リンク/画像を動的にロードする Web サイトの完全に機能するオフライン コピーのダウンロード
リサーチ
この問題に対処する Stackoverflowに関する質問 (例[1]、[2]、[3] ) があり、そのほとんどはwgetまたはhttrackを使用してトップの回答を持っていますが、どちらも惨めに失敗します (間違っている場合は修正してください)タグsrcset
の代わりにsrc
動的にリンクまたは使用をロードするページ、または JSを介してロードされるもの。img
かなり明白な解決策はSeleniumでしたが、本番環境で Selenium を使用したことがある場合は、そのような決定から生じる問題にすぐに気付き始めます (リソースが重い、ヘッドフル ドライバーを使用するのが非常に複雑である、それがビルドされていないという事実)。その)、そうは言っても、何年もの間、本番環境で簡単に使用できたと主張する人々がいます
予想される解決策
リンクのページを解析し、それらを個別にロードするスクリプト (できれば Python)。それを行う既存のスクリプトが見つからないようです。あなたの解決策が「自分で実装する」である場合、そもそも質問するのは無意味です。私は既存の実装を探しています。
例
- Shopify.com
- Wix を使用して構築されたウェブサイト