問題タブ [httrack]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
803 参照

python - 動的に読み込まれたリンク/画像を含む完全な Web ページを取得する

問題

リンク/画像を動的にロードする Web サイトの完全に機能するオフライン コピーのダウンロード

リサーチ

この問題に対処する Stackoverflowに関する質問 (例[1][2][3] ) があり、そのほとんどはwgetまたはhttrackを使用してトップの回答を持っていますが、どちらも惨めに失敗します (間違っている場合は修正してください)タグsrcsetの代わりにsrc動的にリンクまたは使用をロードするページ、または JSを介してロードされるもの。imgかなり明白な解決策はSeleniumでしたが、本番環境で Selenium を使用したことがある場合は、そのような決定から生じる問題にすぐに気付き始めます (リソースが重い、ヘッドフル ドライバーを使用するのが非常に複雑である、それがビルドされていないという事実)。その)、そうは言っても、何年もの間、本番環境で簡単に使用できたと主張する人々がいます

予想される解決策

リンクのページを解析し、それらを個別にロードするスクリプト (できれば Python)。それを行う既存のスクリプトが見つからないようです。あなたの解決策が「自分で実装する」である場合、そもそも質問するのは無意味です。私は既存の実装を探しています。

  1. Shopify.com
  2. Wix を使用して構築されたウェブサイト