shell - スクリプト内の特定のHTMLタグ間でテキストを抽出する方法

Question

フォームにHTMLがあるとすると、次のようになります。

<html>
  <body>
    <div id="1" class="c">some other html stuff</div>
  </body>
</html>

Unixスクリプトでこれを抽出するにはどうすればよいですか？

some other html stuff

score 3 · Accepted Answer

html-xml-utilsと、CSSセレクターに一致する要素を抽出できるコマンドをチェックアウトhxselectできます。

hxselect '.c' < test.htm

これは、入力が整形式のXMLドキュメントであることを前提としています。そうでない場合は、正規表現とその結果の可能性に頼る必要があるかもしれません。

score 1 · Accepted Answer

簡単な使用法として、Exエディターを使用できます。次に例を示します。

$ ex +'/<div/norm vity' +'%d|pu 0|%p' -scq! file.html
some other html stuff

タグが見つかったら、見つかったdivタグの内側のHTMLタグ（）を選択し、バッファを（、）に置き換えるためにvitヤンク（）してから、（）を出力し、（）を終了します。y%deleteput 0%print-cq!

デモURLを使用した他の例：

$ ex +'/<div/norm vity' +'%d|pu 0|%p' -Nscq! http://example.com/

利点はex、ほとんどのLinux/Unixディストリビューションで利用できる標準のUnixエディタであるということです。

参照：

2 に答える 2