BeautifulSoupを使用してスクラップしたい次のhtmlパターンがあります。HTMLパターンは次のとおりです。
<a href="link" target="_blank" onclick="blah blah blah">TITLE</a>
TITLE とリンクに表示されている情報を取得したい。つまり、リンクをクリックすると、TITLE の説明が表示されます。その説明が欲しい。
次のコードでタイトルを取得しようとすることから始めました。
import urllib
from bs4 import BeautifulSoup
import re
webpage = urrlib.urlopen("http://urlofinterest")
title = re.compile('<a>(.*)</a>')
findTitle = re.findall(title,webpage)
print findTile
私の出力は次のとおりです。
% python beta2.py
[]
したがって、これは明らかにタイトルさえ見つけられません。私も試してみましたが、うまくいき<a href>(.*)</a>
ませんでした。ドキュメンテーションを読んだ結果、BeautifulSoup は指定した記号の間にあるテキストを取得すると考えました。この場合、私は何を間違っているのでしょうか?