php - 抽出方法からのタグと (X) PHP の HTML 入力?

Question

HTML ファイルからすべてのタグを抽出する必要があります。これにより、各属性の key=value を含む配列、または少なくともタグを構成する生のテキストが得られます。

私は正規表現とうまくやっていくことができず、ましてや PHP とはうまくいきません。

PD: 一部のタグは複数の行にまたがる場合があり、後続の行ではタブとスペースでインデントされます。

ありがとう。

score 1 · Accepted Answer

DOM 関数を使用して、XML/XHTML ドキュメントを解析して DOM ツリーにすることができます。そこから、必要なノードをトラバースして、探しているデータを抽出するのはそれほど難しくありません。

一部の人々は、同じように機能するSimpleXML 関数を好みます。私は個人的に SimpleXML に問題があり、より冗長ですが、より強力な DOM 関数を好みます。

score 1 · Accepted Answer

はい、簡単です。PHP の DOM 関数を使用し、XPath でノードを見つけようとします。それが無痛の方法であるべきです。

score 0 · Accepted Answer

0

もう 1 つのオプションは、simplehtmldomライブラリです。

于 2009-09-05T00:29:28.053 に答える

3 に答える 3