0

Web サイトを PDF に変換していますが、そこには画像があり、そのすべてにテキストがあり、クリックすると画像自体が表示されます。

ファイルの1つで削除したため、テキストとリンクが表示されなくなったため、これがそのテキストを表示するコードになると思います。

<div class="v1"><a target="_self" href="images/graphics/1.jpg">[View full size image]</a></div>

問題は、この類似したテキストを含む HTML ドキュメントがさらに 200 ほどあることhrefです。

1つずつ行かなくても、これらすべてを取り除く簡単な方法はありますか? たぶん正規表現sed

4

2 に答える 2

1

式が常に 1 行にあり、唯一の違いが にあるhref場合sed、考えられる解決策は次のとおりです。

sed -e 's,<div class="v1"><a target="_self" href="[^"]*">\[View full size image\]</a></div>,,' 

別のセパレーターを使用した,ため/、終了タグでエスケープする必要はありません。ただし、リンクのテキスト内の括弧はエスケープする必要があります。

于 2012-10-23T09:44:38.167 に答える
0

はい、ここでは正規表現がおそらく最も簡単な解決策です。すべてのファイルからこの行を削除するだけの問題である場合は、それらをエディターで開き ( Sublime Text 2はこれをうまく実行します)、正規表現の検索と置換を実行します。次の検索パターンが機能する可能性があります。

<div class=\"v1\"><a target=\"_self\" href=\"[^"]+\">\[View full size image\]</a></div>

于 2012-10-23T09:39:49.270 に答える