python - 文字列から必要なデータを取得する方法

Question

たとえば、文字列がありました

s = '\r\n<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> \r\n\r\n<p>\r\n\t\r\n\t\t<A HREF="../temp/Table 32012419252223.xls">Click to download</A>\r\n\r\n\t\r\n\t</P>'

/temp/Table 32012419252223.xls上記の文字列からのみフェッチする必要があります。

次に、たとえばリンクがありました

link = "www.example.com/flow/hardway/joshing/high"

"joshing/high"ここで、上記のリンクを最初のリンクの結果 ( )に置き換える必要があり/temp/Table 32012419252223.xlsます。

score 2 · Accepted Answer

HTML または XML ドキュメントを解析する場合は、適切なライブラリを使用してください。lxml と xpath を使用した例は次のようになります。

from lxml.html.soupparser import fromstring
from urlparse import urljoin

s = 'yourhtml'
h = fromstring(s)
print urljoin(link, h.xpath('//a[1]/@href')[0]))

ページの最初のリンクを取得します。HTML がより複雑な場合は、より複雑な XPath 式を使用することもできます。

python - 文字列から必要なデータを取得する方法

1 に答える 1

Related

Reference