0

wget を使用していくつかのスクラップを行った後、いくつかのリンクを変更したいと考えています。

wget を使用して Web サイトをエクスポートする際に、href="http://www.domain.com/whatever/page" などのリンクが href="http://www.domain.com/whatever/page.html に変換されます。 "

ただし、wget の範囲外を参照するリンクは変更されません。場合によっては変更したいと思います。

私のコマンドは、 href="http://www.domain.com/whatever/page" が href="http://www.domain.com/whatever/page.html" になるようにすることです。

私の現在の正規表現は

sed -e "s|\"\(http://www\.domain\.com/.*\)/\([^\./]+\)\"|\"\1/\2.html\"|g"

私が間違っていることは何ですか?

4

2 に答える 2

0

これを試して:

sed -e "s|\"\(http://www\.domain\.com/.*\)/\(.\+\)\"|\"\1/\2.html\"|g "
于 2013-03-28T07:42:02.490 に答える
0

これを試して :

$ perl -pe 's@href="http://www\.domain\.com/([^/]+/)?\w+(?!\.html)(?=")@$&.html@'
于 2013-03-27T21:46:22.530 に答える