このコードを使用して、ページ内のすべての興味深いリンクを見つけています。
soup.findAll('a', href=re.compile('^notizia.php\?idn=\d+'))
そして、それはその仕事をかなりうまくやっています。残念ながら、そのタグ内には、 font、bなどのネストされたタグがたくさんあります...他のhtmlタグなしで、テキストコンテンツだけを取得したいと思います。
リンクの例:
<A HREF="notizia.php?idn=1134" OnMouseOver="verde();" OnMouseOut="blu();"><FONT CLASS="v12"><B>03-11-2009: <font color=green>CCS Ingegneria Elettronica-Sportello studenti ed orientamento</B></FONT></A>
もちろん、それは醜いです (そして、マークアップは常に同じであるとは限りません!) そして、私は取得したいと思います:
03-11-2009: CCS Ingegneria Elettronica-Sportello studenti ed orientamento
ドキュメントではtext=True
findAll メソッドで使用するように書かれていますが、私の正規表現は無視されます。なんで?どうすれば解決できますか?