regex - 「sed」を使用して HTMl タグと不要な空白を削除する

Question

そこで、テキストから HTML タグ (属性やネストされたタグなし) を抽出する Sed コマンドを探していました。テキストは次のように変換する必要があります。

<h1>This is a valid HTML tag</h1>.
<i>These</b> <1>invalid</i> <a}>tags</a}> should be ignored.

なる:

This is a valid HTML tag.
<i>These</b> <1>invalid</i> <a}>tags</a}> should be ignored.

このコマンドを試しましsed 's/^.*>$[^<]*$<.*$/\1/'たが、完全には正しくありません:(

文字列の先頭と末尾から不要な空白 [スペースまたはタブ] を削除する sed 式。

前もって感謝します！:)

score 0 · Accepted Answer

一部の人々が言及したように、HTML は正規表現の良い候補ではありません。

それにもかかわらず、これは出発点になる可能性があります（vimでテスト済み）

:%s:<\([^>]*\)>\(.*\)</\1>:\2:

1 に答える 1