この機能を完全に単純化するモジュールがあることは承知していますが、Python の基本インストール (標準モジュールのみ) から実行していると言うと、次をどのように抽出すればよいでしょうか。
リストがあります。このリストは、Web ページの行ごとのコンテンツです。以下は、情報提供を目的としたモックアップ リスト (書式なし) です。
<script>
link = "/scripts/playlists/1/" + a.id + "/0-5417069212.asx";
<script>
"<a href="/apps/audio/?feedId=11065"><span class="px13">Eastern Metro Area Fire</span>"
上記の文字列から、次を抽出する必要があります。上記のコードでは、"/scripts/playlists/1/" および "/0-5417069212.asx" の feedId (11065) は偶然にも a.id です。これらの各行は、リスト内のオブジェクトの内容にすぎないことを思い出してください。そのデータを抽出するにはどうすればよいでしょうか?
完全なリストは次のとおりです。
contents = urllib2.urlopen("http://www.radioreference.com/apps/audio/?ctid=5586")
擬似:
from urllib2 import urlopen as getpage
page_contents = getpage("http://www.radioreference.com/apps/audio/?ctid=5586")
feedID = % in (page_contents.search() for "/apps/audio/?feedId=%")
titleID = % in (page_contents.search() for "<span class="px13">%</span>")
playlistID = % in (page_contents.search() for "link = "%" + a.id + "*.asx";")
asxID = * in (page_contents.search() for "link = "*" + a.id + "%.asx";")
streamURL = "http://www.radioreference.com/" + playlistID + feedID + asxID + ".asx"
streamURL が = になるようにフォーマットする予定です。
http://www.radioreference.com/scripts/playlists/1/11065/0-5417067072.asx