bash - awk で HTML スニペットを解析する

Question

awkで HTML ドキュメントを解析しようとしています。

ドキュメントには複数の<div class="p_header_bottom"></divブロックが含まれています

 <div class="p_header_bottom">
    <span class="fl_r"></span>
    287,489 people
  </div>
  <div class="p_header_bottom">
    <span class="fl_r"></span>
    5 links
  </div>

私は使っている

awk '/<div class="p_header_bottom">/,/<\/div>/'

そのようなすべてのdivを受け取ります。

最初の番号から番号を取得するにはどうすればよい287,489ですか?

実際awk '/<\/span>/,/people/'には正しく動作しません。

score 5 · Accepted Answer

gawkを使用し、各<div> </div>ブロック内の数字とコンマのみが対象の数値部分にあると仮定します

awk -v RS='<[/]?div[^>]*>' '/span/ && /people/{gsub(/[^[:digit:],]/, ""); print}' file.txt

bash - awk で HTML スニペットを解析する

1 に答える 1

Related

Reference