0

フォームにHTMLがあるとすると、次のようになります。

<html>
  <body>
    <div id="1" class="c">some other html stuff</div>
  </body>
</html>

Unixスクリプトでこれを抽出するにはどうすればよいですか?

some other html stuff
4

2 に答える 2

3

html-xml-utilsと、CSSセレクターに一致する要素を抽出できるコマンドをチェックアウトhxselectできます。

hxselect '.c' < test.htm

これは、入力が整形式のXMLドキュメントであることを前提としています。そうでない場合は、正規表現とその結果の可能性に頼る必要があるかもしれません。

于 2012-05-29T07:06:53.200 に答える
1

簡単な使用法として、Exエディターを使用できます。次に例を示します。

$ ex +'/<div/norm vity' +'%d|pu 0|%p' -scq! file.html
some other html stuff

タグが見つかったら、見つかったdivタグの内側のHTMLタグ()を選択し、バッファを( 、)に置き換えるためにvitヤンク( )してから、()を出力し、( )を終了します。y%deleteput 0%print-cq!

デモURLを使用した他の例:

$ ex +'/<div/norm vity' +'%d|pu 0|%p' -Nscq! http://example.com/

利点はex、ほとんどのLinux/Unixディストリビューションで利用できる標準のUnixエディタであるということです。

参照:

于 2015-10-25T15:13:30.573 に答える