php - Web ページの html ダンプから最初の完全な文を抽出する

Question

PHP を使用して、CURL を使用して別の Web ページからすべての文を抽出するアプリケーションを開発しています。すべてのデータを抽出することはできますが、完全に形成された文を抽出するのは困難です。私は関連するすべての質問を参照しましたが、私が望んでいた方法で私を助けてくれました。ご意見をお聞かせください

完全な形式の文を抽出する必要がある場所からの html コンテンツ

<p><font size="1" color="#C0C0C0">© Copyright <br></font><a href="http://www.dddddd.com" target="_blank"><font size="1" color="#C0C0C0">apple orange Ltd</font></a><font size="1"color="#C0C0C0"><a href="http://sm2.dddd.com/stats.asp?site=sm2ph0t0" target="_top"><img src="http://sm2.dddd.com/meter.asp?site=sm2ph0t0" alt="Site Meter" border=0></a></font></p></td><td valign="top" width="24"></td><!--msnavigation--><td valign="top"><p align="center"><a href="http://www.orangeapple.com" target="_blank"><img border="0" src="asddaf.jpg" alt="Sponsored by Ace Murder Mystery" width="85" height="121"></a><font face="Times New Roman"><b><b><u>Posters</u></b><br><font size="3" color="#008080">To find a large selection of jay joes prints and posters including framing options, please type the word..<font color="#996633"> asdasd </font></a><font color="#996633">&nbsp;</font> in the box below:<br><b>

基本的に気づけば余計な文章がたくさん出てくるかもしれません。上記から、文字列に最低「6」語を含む文を抽出したいと思います。出力として「ジェイジョーの版画とポスターの大規模な選択を見つけるには」を取得する必要があります。

ありがとう、ジェイ

score 0 · Accepted Answer

私はこれを以下を使用して解決しました

$paras = $doc->getElementsByTagName('p'); 

    for ($l = 0; $l < $paras->length; $l++)
    {
        $para = $paras->item($l);
        $paraContent = $para->textContent;
        $urlDet['para'] .= trim_text($paraContent, 1000);
    }

答えようとした人に感謝します...

php - Web ページの html ダンプから最初の完全な文を抽出する

1 に答える 1

Related

Reference