0

ページのhtmlコードを取得しています。

すべてのhtmlタグとスクリプトを削除できました。また、削除したかった<title> whatever here </html>

SOですべてのソリューションをテストしました。助け無し

ここで何が問題なのですか?

function plaintext($html)
    {
        $plaintext = preg_replace('#([<]title)(.*)([<]/title[>])#', ' ', $html);


            //$plaintext = preg_match('#<title>(.*?)</title>#', $html);

        // remove comments and any content found in the the comment area (strip_tags only removes the actual tags).
        $plaintext = preg_replace('#<!--.*?-->#s', '', $plaintext);

        // put a space between list items (strip_tags just removes the tags).
            $plaintext = preg_replace('#</li>#', ' </li>', $plaintext);     

            // remove all script and style tags
        $plaintext = preg_replace('#<(script|style)\b[^>]*>(.*?)</(script|style)>#is', "", $plaintext);

        // remove br tags (missed by strip_tags)
            $plaintext = preg_replace("#<br[^>]*?>#", " ", $plaintext);

            // remove all remaining html
            $plaintext = strip_tags($plaintext);

        return $plaintext;
    }
4

2 に答える 2

0

試す:

preg_replace('/<title\b[^>]*>(.*?)</title>/i','',$html);
于 2013-11-06T19:01:55.503 に答える