0

HTML ファイルからすべてのタグを抽出する必要があります。これにより、各属性の key=value を含む配列、または少なくともタグを構成する生のテキストが得られます。

私は正規表現とうまくやっていくことができず、ましてや PHP とはうまくいきません。

PD: 一部のタグは複数の行にまたがる場合があり、後続の行ではタブとスペースでインデントされます。

ありがとう。

4

3 に答える 3

1

DOM 関数を使用して、XML/XHTML ドキュメントを解析して DOM ツリーにすることができます。そこから、必要なノードをトラバースして、探しているデータを抽出するのはそれほど難しくありません。

一部の人々は、同じように機能するSimpleXML 関数を好みます。私は個人的に SimpleXML に問題があり、より冗長ですが、より強力な DOM 関数を好みます。

于 2009-09-05T00:04:32.113 に答える
1

はい、簡単です。PHP の DOM 関数を使用し、XPath でノードを見つけようとします。それが無痛の方法であるべきです。

于 2009-09-05T00:15:53.993 に答える
0

もう 1 つのオプションは、simplehtmldomライブラリです。

于 2009-09-05T00:29:28.053 に答える