php - PHP シンプルな HTML DOM パーサーが不完全なデータを与える

Question

PHP Simple HTML DOMを使用して、次の HTML で Web ページを解析しています。それぞれの余分なタグに注意してください<li>。

<li>
  <span class="name">
    <a href="">Link</a> asdasd
  </span>
  </span>
</li>
<li>
  <span class="name">
    <a href="">Link</a> asdasd2
  </span>
  </span>
</li>

私のクエリは次のとおりです。

$lis = $dom->find('li');
foreach ($lis as $li) {
  $spans = $li->find('span');
  foreach ($spans as $span) {
    echo $span->plaintext."<br>";
  }
}

私の出力は次のとおりです。

Link asdasd 
Link asdasd2
-----------
Link asdasd2 
-----------

ご覧のとおりfind('span')、最初のスパンの子として 2 つのスパンが見つかり、次に見つけることができる<li>次のスパンから値を取得します (たとえそれが next の子であっても<li>)。末尾を削除すると、問題が修正されます。

私の質問は次のとおりです。

なぜこうなった？
この特定のケースをどのように解決できますか? 他のすべてはうまく機能し、スクリプトに大きな変更を加える立場にはありません。必要に応じて、DOM クエリを簡単に変更できます。

開始タグと終了タグを数えて、多すぎる場合は1つ削除することを考えています。それらは常にs であるため、正規表現で確認するスマートな方法はありますか?

score 1 · Accepted Answer

$newTxt = preg_replace('/\<\/span\>[\S]*\<\/span\>/','</span>',$txt);

メソッド 'find(x)' はオーバーロードされた関数であり、次のものと同等のものを返すことができます。

$e->getElementById(x);
$e->getElementsById(x);
$e->getElementByTagName(x); and
$e->getElementsByTagName(x);

最初の呼び出しでは、最後の呼び出しを利用します。3 番目の可能性の 2 番目の $li で。おそらくAPIに応じてどの質問をしていたのかを最適化する方法です。どちらの場合も 3 番目の呼び出しの使用を求めていたため、API にバグが見つかったと思います。

$e->getElementByTagName();

php - PHP シンプルな HTML DOM パーサーが不完全なデータを与える

2 に答える 2

Related

Reference