スクレイピングされたコンテンツで相対 URL を絶対にして、スクレイピングされた html が元のように表示され、css が壊れないようにする方法は何ですか?
<base>
タグが役立つことがわかりました。しかし、URL の元のベースが何であるかを調べるにはどうすればよいでしょうか?
リンクとの相互作用は気にしませんが、正しく表示されることを望みます。
2 つのリソースを持つサイト「example.com/blog/new/i.html」をスクレイピングするとします。
- < リンク src="/style/style.css" >
- < リンク src="newstyle.css" >。
ベースを「example.com/blog/new/i.html」に設定すると、最初のものは壊れません