まず、Web ページの html を取得してから、通常はページの左側または右側 (ページ本体ではなく) に表示される href リンクを削除しています。href リンクは削除されていますが、ラベルは削除されていません。
例:
<a href='http://test.blogspot.com/2012/11/myblog.html'>London</a>
リンクは削除されていますが、「ロンドン」などのラベルは削除されていません。HTMLソースの行全体を削除するにはどうすればよいですか? 私はそれに次のコードを使用しています:
$string = strip_tags($html_source_code, '<a>', TRUE);
function strip_tags($text, $tags = '', $invert = FALSE) {
preg_match_all('/<(.+?)[\s]*\/?[\s]*>/si', trim($tags), $tags);
$tags = array_unique($tags[1]);
if(is_array($tags) AND count($tags) > 0) {
if($invert == FALSE) {
return preg_replace('@<(?!(?:'. implode('|', $tags) .')\b)(\w+)\b.*?>.*?</\1>@si', '', $text);
}
else {
return preg_replace('@<('. implode('|', $tags) .')\b.*?>.*?</\1>@si', '', $text);
}
}
elseif($invert == FALSE) {
return preg_replace('@<(\w+)\b.*?>.*?</\1>@si', '', $text);
}
return $text;
}