HTML ファイルからすべてのタグを抽出する必要があります。これにより、各属性の key=value を含む配列、または少なくともタグを構成する生のテキストが得られます。
私は正規表現とうまくやっていくことができず、ましてや PHP とはうまくいきません。
PD: 一部のタグは複数の行にまたがる場合があり、後続の行ではタブとスペースでインデントされます。
ありがとう。
DOM 関数を使用して、XML/XHTML ドキュメントを解析して DOM ツリーにすることができます。そこから、必要なノードをトラバースして、探しているデータを抽出するのはそれほど難しくありません。
一部の人々は、同じように機能するSimpleXML 関数を好みます。私は個人的に SimpleXML に問題があり、より冗長ですが、より強力な DOM 関数を好みます。
はい、簡単です。PHP の DOM 関数を使用し、XPath でノードを見つけようとします。それが無痛の方法であるべきです。
もう 1 つのオプションは、simplehtmldomライブラリです。