Web サイトを PDF に変換していますが、そこには画像があり、そのすべてにテキストがあり、クリックすると画像自体が表示されます。
ファイルの1つで削除したため、テキストとリンクが表示されなくなったため、これがそのテキストを表示するコードになると思います。
<div class="v1"><a target="_self" href="images/graphics/1.jpg">[View full size image]</a></div>
問題は、この類似したテキストを含む HTML ドキュメントがさらに 200 ほどあることhref
です。
1つずつ行かなくても、これらすべてを取り除く簡単な方法はありますか? たぶん正規表現sed
?