0

Web サイトをスクレイピングして、すべてのページを HTML として保存し、完全に DVD に保存する必要があります。私はこれを行いましたが、今ではすべてのリンクが , で始まり/、ルート ディレクトリを取得します。hrefすべてのファイル (1500 ページ) のすべてを変更しhref="./"て、常に作業ディレクトリを取得するようにしたいと思います。

については見たことがsedありbashますが、すべての を動的に取得して変更する方法がよくわかりませんでしhrefた。

どうすれば効率的にこれを行うことができますか?

4

3 に答える 3

0

このようなことを試してみてください。正規表現は 100% ではない可能性があるため、1 つまたは 2 つのファイルでテストし、それに応じて微調整してください。

find . -name "*.html" -exec sed -i 's|href="[^"]/|href="./|g' '{}' \;
于 2012-07-10T12:06:17.743 に答える
0

baseタグを使ってみましたか?

于 2012-07-10T11:58:22.427 に答える