python - クラスまたはIDなしでHTMLからイメージタグ属性を選択します

Question

Lxml を使用して Python 経由で解析する HTML ページがあります。問題は、class 属性や id 属性がない HTML イメージタグの値を取得する必要があることです。このような：

<table cellspacing="0" cellpadding="0" border="0">
<tbody><tr>
<td align="left" valign="top" style="padding: 0 10px 0 60px;">
<img src="/files/135.jpg" width="64" height="64">
</td>
<td align="left" valign="middle"><h1>Archer / Арчер</h1>
</td>
</tr>
</tbody></table>

それで、私の仕事を解決するために、私は質問があります-このHTMLから画像タグを選択するjqueryのような式を書くことが可能ですか、またはすべてのimgタグを反復して属性を抽出し、特定の幅と高さを持つsrc属性を取得する必要があります?

score 0 · Accepted Answer

lxml でサポートされているxpathを試す必要があります。mozilla firefox 用の firepath アドオンを使用して、xpath を少し操作できます。xpath 式の最後は (width > 64 ?) ............./img[@border="0"] のようになります

score 0 · Accepted Answer

このxpathクエリは、サンプルデータに対して機能します。

import lxml.html

root = lxml.html.fromstring('your sample data').getroottree()
root.xpath("//img[@width='64' and @height='64']/@src")
# ['/files/135.jpg']

python - クラスまたはIDなしでHTMLからイメージタグ属性を選択します

2 に答える 2

Related

Reference