python - お問い合わせ: 美しいスープ + 思い通りに削れない href パターン

翻译自：https://stackoverflow.com/questions/14664755 2013-02-02T17:57:28.780

367 次

BeautifulSoupを使用してスクラップしたい次のhtmlパターンがあります。HTMLパターンは次のとおりです。

<a href="link" target="_blank" onclick="blah blah blah">TITLE</a>

TITLE とリンクに表示されている情報を取得したい。つまり、リンクをクリックすると、TITLE の説明が表示されます。その説明が欲しい。

次のコードでタイトルを取得しようとすることから始めました。

import urllib
from bs4 import BeautifulSoup
import re

webpage = urrlib.urlopen("http://urlofinterest")

title = re.compile('<a>(.*)</a>')
findTitle = re.findall(title,webpage)
print findTile

私の出力は次のとおりです。

% python beta2.py
[]

したがって、これは明らかにタイトルさえ見つけられません。私も試してみましたが、うまくいき<a href>(.*)</a>ませんでした。ドキュメンテーションを読んだ結果、BeautifulSoup は指定した記号の間にあるテキストを取得すると考えました。この場合、私は何を間違っているのでしょうか?

python - お問い合わせ: 美しいスープ + 思い通りに削れない href パターン

1 に答える 1

Related

Reference