1

テキストのみを含むWeb サイトからデータを読み取ろうとしています。「&values」以降のデータだけを読み込みたい。Web サイト全体を開くことができましたが、不要なデータを削除する方法がわかりませんし、HTML もわかりません。どんな助けでも大歓迎です。

4

2 に答える 2

3

その URL の内容は、URL パラメータのように見えます。urllib.parse_qsそれらを辞書に解析するために使用できます:

import urllib2
import urlparse

url = 'http://www.tip.it/runescape/gec/price_graph.php?avg=1&start=1327715574&mainitem=10350&item=10350'
response = urllib2.urlopen(url)
content = response.read()
params = urlparse.parse_qs(content)
print(params['values'])
于 2012-10-27T01:59:11.890 に答える
2

モジュールを調べることをお勧めしreます (ただし、最終的に HTML に移行する場合、正規表現は最善の解決策ではありません)。&values次に、テキストを取得して、次の数字/コンマ/スペースの組み合わせを返す基本的な例を示します。

>>> import re
>>> import urllib2
>>> url = 'http://www.tip.it/runescape/gec/price_graph.php?avg=1&start=1327715574&mainitem=10350&item=10350'
>>> contents = urllib2.urlopen(url).read()
>>> values = re.findall(r'&values=([\d,\s]*)', contents)
>>> values[0].split(',')
['33900000', '33900000', '33900000', #continues....]
于 2012-10-27T01:57:04.277 に答える