フォームにHTMLがあるとすると、次のようになります。
<html>
<body>
<div id="1" class="c">some other html stuff</div>
</body>
</html>
Unixスクリプトでこれを抽出するにはどうすればよいですか?
some other html stuff
html-xml-utilsと、CSSセレクターに一致する要素を抽出できるコマンドをチェックアウトhxselect
できます。
hxselect '.c' < test.htm
これは、入力が整形式のXMLドキュメントであることを前提としています。そうでない場合は、正規表現とその結果の可能性に頼る必要があるかもしれません。
簡単な使用法として、Exエディターを使用できます。次に例を示します。
$ ex +'/<div/norm vity' +'%d|pu 0|%p' -scq! file.html
some other html stuff
タグが見つかったら、見つかったdiv
タグの内側のHTMLタグ()を選択し、バッファを( 、)に置き換えるためにvit
ヤンク( )してから、()を出力し、( )を終了します。y
%delete
put 0
%print
-cq!
デモURLを使用した他の例:
$ ex +'/<div/norm vity' +'%d|pu 0|%p' -Nscq! http://example.com/
利点はex
、ほとんどのLinux/Unixディストリビューションで利用できる標準のUnixエディタであるということです。
参照: