私はいくつかの html ファイルを持っていて、いくつかのタグの間のコンテンツを抽出したいと考えています。
<p>A paragraph comes here</p>
<p>A paragraph comes here</p><span class="more-about">Some text here</span><p class="en-cpy">Copyright © 2012 </p>
これらのタグが必要なだけです: head, p ですが、2 番目の段落でわかるように、最後のタグは p で始まりますが、私の欲望タグではなく、そのコンテンツは必要ありません。目的のテキストを抽出するために次のスクリプトを使用しましたが、例の最後のタグなどのタグを除外することはできません....<p>
タグだけを抽出するにはどうすればよいですか?
grep "<p>" $File | sed -e 's/^[ \t]*//'
追加する必要があるのは、最後のタグ (出力に表示したくない) が目的のタグの 1 つの直後にあり (私の例のように)、grep コマンドを使用すると、その行のすべてのコンテンツが返されることです。出力として...(これは私の問題です)