php - HTML ページからテキストのブロックを抽出する方法は?

Question

PHP を使用して、大きな HTML ページから 100 語を超えるテキストのブロックを抽出したいと考えています。テキストが含まれているかどうかは問題で<p>...</p>はありません。一貫したテキストブロックを構成する単語の数だけを気にするので、HTML パラグラフの外側のテキストも考慮する必要があります。

これはどのように行うことができますか？

score 5 · Accepted Answer

私はphpQueryを使用しています。jQueryに精通していますか？それらは同じ構文を共有します。あなたは新しいライブラリをインストールすることを心配しているかもしれませんが、このライブラリは余分なオーバーヘッドを払うだけの価値があると信じてください

phpクエリ

その後、次のようにアクセスできます。

foreach($doc->find('p') as $element){
   $element = pq($element);
   echo str_word_count($element->text());
}

score 2 · Accepted Answer

PHP シンプル DOM パーサーを使用します。

foreach($html->find('p') as $element){
   echo str_word_count($element->src);
}

php - HTML ページからテキストのブロックを抽出する方法は?

2 に答える 2

phpクエリ

Related

Reference