SEO コンテンツを保持するすべての e コマース サイトのページに div があります。そのdivの単語数を数えたいと思います。大規模なクロールで空のページを診断するためのものです。
div は常に次のように始まります。
<div class="box fct-seo fct-text
次に、、およびタグが含ま<h1>
れ<p>
ます<a>
。
その後、明らかに、次のように閉じます</div>
SED、AWK、WCなどを使用して、divの開始と終了divの間のすべてのコードを取得し、発生する単語の数をカウントするにはどうすればよいですか? 90%の精度なら満足です。
最初の終了が検出される前に、スキャンを停止するように何らかの方法で指示する必要が</div>
あります。
操作するページの例を次に示します。
http://www.zando.co.za/women/shoes/
とても有難い。-P