ウェブページから特定のリンクを抽出する単純な python スクリプトを作成しようとしています。リンクを正常に抽出できましたが、そのWebページにあるような情報をさらに抽出したいと思いbitrate,size,duration
ます。
上記の情報を抽出するために、以下の xpath を使用しています
>>> doc = lxml.html.parse('http://mp3skull.com/mp3/linkin_park_faint.html')
>>> info = doc.xpath(".//*[@id='song_html']/div[1]/text()")
>>> info[0:7]
['\n\t\t\t', '\n\t\t\t\t3.71 mb\t\t\t', '\n\t\t\t', '\n\t\t\t\t3.49 mb\t\t\t', '\n\t\t\t', '\n\t\t\t\t192 kbps', '2:41']
ここで必要なのは、特定のリンクについて、必要な情報がtuple
likeの形式で生成されることです(bitrate,size,duration)
。
上で述べたのxpath
は必要な情報を生成しill-formatted
ますが、少なくとも私ができないロジックで必要なフォーマットを達成することは不可能です。
それで、私の形式で出力を達成する方法はありますか?