PHP を使用して、大きな HTML ページから 100 語を超えるテキストのブロックを抽出したいと考えています。テキストが含まれているかどうかは問題で<p>...</p>
はありません。一貫したテキスト ブロックを構成する単語の数だけを気にするので、HTML パラグラフの外側のテキストも考慮する必要があります。
これはどのように行うことができますか?
PHP を使用して、大きな HTML ページから 100 語を超えるテキストのブロックを抽出したいと考えています。テキストが含まれているかどうかは問題で<p>...</p>
はありません。一貫したテキスト ブロックを構成する単語の数だけを気にするので、HTML パラグラフの外側のテキストも考慮する必要があります。
これはどのように行うことができますか?
私はphpQueryを使用しています。jQueryに精通していますか?それらは同じ構文を共有します。あなたは新しいライブラリをインストールすることを心配しているかもしれませんが、このライブラリは余分なオーバーヘッドを払うだけの価値があると信じてください
その後、次のようにアクセスできます。
foreach($doc->find('p') as $element){
$element = pq($element);
echo str_word_count($element->text());
}
PHP シンプル DOM パーサーを使用します。
foreach($html->find('p') as $element){
echo str_word_count($element->src);
}