python - Pythonを使用してWeb要素をメモ帳に解析する方法は?

Question

Pythonを使用してサイトからものを「抽出」するのを手伝ってくれる人はいますか? ここに情報があります：私は一連の数字（それらはアイテムのIDです）を含むフォルダー名を持っており、ページに入るためにそのIDを使用し、ページからメモ帳に情報を「スクラップ」する必要があります...これは次のようなものです：http： //www.somesite.com/pic.mhtml?id=[ID]...そこから画像リンクを抽出する必要があります（画像リンクには常にファイルの最後にID.jpgがあります）、メモ帳に書き込んでからそのtxt名を画像の名前に置き換えます...画像は常にタイトルタグにあります...よろしくお願いします...

score 0 · Accepted Answer

画像の html ソースを解析してみてください。同様のことを試してください：

class Parser(object):
__rx = r'(url|src)="(http://www\.page\.com/path/?ID=\d*\.(jpeg|jpg|gif|png)'

def __crawl(self, url):
    images = []
    code = urllib.urlopen(url).read()
    for line in code.split('\n'):
        imagesearch = re.search(self.__rx, line)
        if imagesearch:
            image = '%s.%s' % (imagesearch.group(2), imagesearch.group(4))
            images.append(image)
    return images

それは未テストです。正規表現を確認することをお勧めします

score 0 · Accepted Answer

必要なのはデータスクレーパーです。http: //www.crummy.com/software/BeautifulSoup/ は、Web サイトからデータを引き出すのに役立ちます。次に、そのデータを変数にロードしたり、ファイルに書き込んだり、データに対して通常行うことを何でも行うことができます。

python - Pythonを使用してWeb要素をメモ帳に解析する方法は?

2 に答える 2

Related

Reference