まず第一に、私は同様の質問をたくさん見てきました。正規表現または dom を使用できることは知っていますが、DOM の良い例を見つけることができず、正規表現は私の髪を引っ張ります。さらに、HTML ソースから複数の値を引き出す必要があります。一部は単純なコンテンツで、一部は属性です。
情報を取得する必要がある html の例を次に示します。
<div class="log">
<div class="message">
<abbr class="dt" title="time string">
DATA_1
</abbr>
:
<cite class="user">
<a class="tel" href="tel:+xxxx">
<abbr class="fn" title="DATA_2">
Me
</abbr>
</a>
</cite>
:
<q>
DATA_3
</q>
</div>
</div>
「メッセージ」ブロックは、1 回または数百回発生する可能性があります。私はこのようなデータに終わろうとしています:
array(4) {
[0] => array(3) {
["time"] => "DATA_1"
["name"] => "DATA_2"
["message"] => "DATA_3"
}
[1] => array(3) {
["time"] => "DATA_1"
["name"] => "DATA_2"
["message"] => "DATA_3"
}
[2] => array(3) {
["time"] => "DATA_1"
["name"] => "DATA_2"
["message"] => "DATA_3"
}
[3] => array(3) {
["time"] => "DATA_1"
["name"] => "DATA_2"
["message"] => "DATA_3"
}
}
simplexml を使用してみましたが、非常に単純な html ページでしか機能しないようです。誰かが私をいくつかの例にリンクしてもらえますか? title 属性から DATA_2 を取得する必要があるため、非常に混乱します。彼のデータを抽出する最良の方法は何だと思いますか? 私が行った XML 抽出と非常に似ているようですが、他の方法を使用する必要があります。