私は、ページの1つに企業クライアントに関する抜粋がリストされているWordPressサイトで作業しています。
表示されるテキストが次のようになっているWebページがあるとします。
"SuperAmazing.com, a subsidiary of Amazing, the leading provider of
integrated messaging and collaboration services, today announced the
availability of an enhanced version of its Enterprise Messaging
Service (CMS) 2.0, a lower cost webmail alternative to other business
email solutions such as Microsoft Exchange, GroupWise and LotusNotes
offerings."
ただし、このテキストにHTMLリンクまたは画像が含まれている可能性があるため、生のHTMLは次のようになります。
<img src="/images/corporate/logos/super_amazing.jpg" alt="Company
logo for SuperAmazing.com" /> SuperAmazing.com, a subsidiary of
<a href="http://www.amazing.com/">Amazing</a>, the leading
provider of integrated messaging and collaboration services, today
announced the availability of an enhanced version of its Enterprise
Messaging Service (CMS) 2.0, a lower cost webmail alternative to other
business email solutions such as Microsoft Exchange, GroupWise and
LotusNotes offerings."
これが私がする必要があることです:最初の20の目に見える単語の中にリンクがあるかどうか調べてください。
これらは最初の20の目に見える単語です:
"SuperAmazing.com, a subsidiary of Amazing, the leading provider of
integrated messaging and collaboration services, today announced the
availability of an"
HTMLを含む文字数を、表示されている20語まで取得する必要があります。この場合は「an」になりますが、もちろんページの抜粋ごとに異なります。
(「SuperAmazing.com」を2語として数えると、簡単になります。)
単語を数えるために正規表現の数を試しましたが、それらはすべてHTMLを数え、表示されている単語は数えません。
では、最初の20個の表示されている単語について、HTMLを含む完全な文字数を見つけるための正しい正規表現は何でしょうか。