HTMLファイルからすべてのテキストを抽出する方法
alt 属性、 < p > タグなどのすべてのテキストを抽出したい.
ただし、スタイルタグとスクリプトタグの間のテキストを抽出したくありません
ありがとう
今、私は次のコードを持っています
<?PHP
$string = trim(clean(strtolower(strip_tags($html_content))));
$arr = explode(" ", $string);
$count = array_count_values($arr);
foreach($count as $value => $freq) {
echo trim ($value)."---".$freq."<br>";
}
function clean($in){
return preg_replace("/[^a-z]+/i", " ", $in);
}
?>
これはうまく機能しますが、取得したくないスクリプトとスタイルタグを取得します。他の問題として、alt などの属性を取得するかどうかはわかりません。strip_tags 関数は属性を持つすべての HTML タグを削除する可能性があるためです。
ありがとう