-1

Pythonを使用してサイトからものを「抽出」するのを手伝ってくれる人はいますか? ここに情報があります:私は一連の数字(それらはアイテムのIDです)を含むフォルダー名を持っており、ページに入るためにそのIDを使用し、ページからメモ帳に情報を「スクラップ」する必要があります...これは次のようなものです:http: //www.somesite.com/pic.mhtml?id=[ID]...そこから画像リンクを抽出する必要があります(画像リンクには常にファイルの最後にID.jpgがあります)、メモ帳に書き込んでからそのtxt名を画像の名前に置き換えます...画像は常にタイトルタグにあります...よろしくお願いします...

4

2 に答える 2

0

画像の html ソースを解析してみてください。同様のことを試してください:

class Parser(object):
__rx = r'(url|src)="(http://www\.page\.com/path/?ID=\d*\.(jpeg|jpg|gif|png)'

def __crawl(self, url):
    images = []
    code = urllib.urlopen(url).read()
    for line in code.split('\n'):
        imagesearch = re.search(self.__rx, line)
        if imagesearch:
            image = '%s.%s' % (imagesearch.group(2), imagesearch.group(4))
            images.append(image)
    return images

それは未テストです。正規表現を確認することをお勧めします

于 2013-04-27T19:46:49.377 に答える
0

必要なのはデータ スクレーパーです。http: //www.crummy.com/software/BeautifulSoup/ は、Web サイトからデータを引き出すのに役立ちます。次に、そのデータを変数にロードしたり、ファイルに書き込んだり、データに対して通常行うことを何でも行うことができます。

于 2013-04-27T18:22:49.020 に答える