python - Webスクレイピングについて - urllibを使用（おそらくbeautifulsoupも）

翻译自：https://stackoverflow.com/questions/17113498 2013-06-14T16:48:45.003

105 次

私がスクレイピングしているウェブサイト:リンク

間で解析したいタグ: START - <p id="p-1">、 FINISH -</p>

私のコード:

from urllib import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen('http://mansci.journal.informs.org/gca?gca=mansci%3B6%2F2%2F141&gca=mansci%3B6%2F2%2F149&gca=mansci%3B6%2F2%2F165&gca=mansci%3B6%2F2%2F172&gca=mansci%3B6%2F2%2F187&gca=mansci%3B6%2F2%2F191&gca=mansci%3B6%2F2%2F197&gca=mansci%3B6%2F2%2F205&gca=mansci%3B6%2F2%2F215&submit=Get+All+Checked+Abstracts').read()

a = re.compile('<p id="p-1">(.*)</p>')
b = re.findall(a,html)

私が抱えている問題は、コードが行ごとに見えることです。段落全体を解析する方法がわかりません。

python - Webスクレイピングについて - urllibを使用（おそらくbeautifulsoupも）

1 に答える 1

Related

Reference