クレイグリストのRSSフィードを解析して位置情報を抽出しようとしています。
私はfeedparserを使用して、スクリプトをエントリとエントリの説明に解析しました。残念ながら、アドレス情報は説明セクション内の不規則なタグに含まれています。
アドレスは、次のようなセクションに含まれています。
<!-- CLTAG xstreet0=11832 se 318pl -->
<!-- CLTAG xstreet1= -->
<!-- CLTAG city=auburn -->
<!-- CLTAG region=wa -->
11832 se 318pl
FeedparserはそれらのCLTAGを好みません。正規表現で最初の行をキャプチャする試みは、次のようになりました。
addressStart = r'!-- CLTAG xstreet0='
addressEnd = r'-->'
prog = re.compile(addressStart(.*?)addressEnd)
result = prog.match(string)
...しかし、それはうまくいきませんでした。私は何が間違っているのですか?これが私が使用しているrssフィードへのリンクです'http://seattle.craigslist.org/see/apa/index.rss'
どんな助けでも大歓迎です!