テキストと埋め込みの html タグを含むかなり大きな段落 (5000 ~ 6000 語) がいくつかあります。この大きな段落を 1500 語のチャンクに分割したい (その中の html マークアップを無視する)。つまり、1500 には実際の単語のみを含め、マークアップ語は含めないでください。 関数を使用するstrip_tags
と、単語数を数えることができます (html マークアップを無視します) が、1500 単語のチャンク (まだ html マークアップを含む) に分割する方法がわかりません。例えば
This is <b> a </b> paragraph which <a href="#"> has some </a> some text to be broken in <h1> 5 words </h1>.
結果は
1 = This is <b> a </b> paragraph which
2 = <a href="#"> has some </a> some text to
3 = be broken in <h1> 5 words </h1>.