3

awkで HTML ドキュメントを解析しようとしています。

ドキュメントには複数の<div class="p_header_bottom"></divブロックが含まれています

 <div class="p_header_bottom">
    <span class="fl_r"></span>
    287,489 people
  </div>
  <div class="p_header_bottom">
    <span class="fl_r"></span>
    5 links
  </div>

私は使っている

awk '/<div class="p_header_bottom">/,/<\/div>/'

そのようなすべてのdivを受け取ります。

最初の番号から番号を取得するにはどうすればよい287,489ですか?

実際awk '/<\/span>/,/people/'には正しく動作しません。

4

1 に答える 1

5

を使用し、各<div> </div>ブロック内の数字とコンマのみが対象の数値部分にあると仮定します

awk -v RS='<[/]?div[^>]*>' '/span/ && /people/{gsub(/[^[:digit:],]/, ""); print}' file.txt
于 2013-11-07T16:00:27.263 に答える