HTML ページの特定のテーブル セルにあるテキストを抽出したいと考えています。
問題は、このセルが ID/名前のないテーブル タグ内に存在することです。
HTML::TreeBuilder::XPath を使用して、XPATH 式を使用して値を抽出しています。
HTML コンテンツは次のようになります。
<table border="0">
<tr>
<td>Some Text</td>
<td>The Text I want comes here</td>
</tr>
これは私のXPATH式がどのように見えるかです:
@nodes=$tree->findnodes(q{//table[8]/tr/td[2]/text()});
print $_->string_value."\n" foreach(@nodes); # corrected, thanks mirod.
出力は表示されません。
上記の table[8] を使用しました。これは、HTML ページの 8 つのテーブル タグであるためです (インデックスが 1 から始まると仮定)。
また、2 番目の td タグの間に innerHTML が必要なので、td[2] を使用しました。
ありがとう。