0

そこで、テキストから HTML タグ (属性やネストされたタグなし) を抽出する Sed コマンドを探していました。テキストは次のように変換する必要があります。

<h1>This is a valid HTML tag</h1>.
<i>These</b> <1>invalid</i> <a}>tags</a}> should be ignored.

なる:

This is a valid HTML tag.
<i>These</b> <1>invalid</i> <a}>tags</a}> should be ignored.

このコマンドを試しましsed 's/^.*>\([^<]*\)<.*$/\1/'たが、完全には正しくありません:(

文字列の先頭と末尾から不要な空白 [スペースまたはタブ] を削除する sed 式。

前もって感謝します!:)

4

1 に答える 1

0

一部の人々が言及したように、HTML は正規表現の良い候補ではありません。

それにもかかわらず、これは出発点になる可能性があります(vimでテスト済み)

:%s:<\([^>]*\)>\(.*\)</\1>:\2:
于 2013-10-20T16:20:32.350 に答える