私は次のhtmlを持っています:
<span class="orig_line">
<a class="original" href="http://nucleify.org/">Nucleify <i class="externalLink icon-circle-arrow-right"></i></a>
·
by <span class="author">Random Person</span>
·
October 1, 2013
</span>
私はsourceforgeで利用可能なSimple HTML DOMパーサークラスを使用しています。私が使用しているサンプルコードは次のとおりです:
$newoutput = str_get_html($htmlCode);
$html = new simple_html_dom();
$html->load($newoutput);
foreach($html->find('div#titlebar') as $date){
$n['date'] = $date->find('span.orig_line',0)->plaintext);
print $n['date'];
}
October 1, 2013
スパン (.orig_line) からの日付テキストから、その中の HTML タグをさらに取り除き、テキストだけを取り除きたいだけなので、それを回避する方法を見つけることができません...
PS: SimpleHTMLDom クラスのみに固執し、phpQuery または DOMParsers は使用しません。
ありがとうございました。