-4

リンクからデータを取得できると聞きました。しかし、最善の方法を知りたいです。それについて読んだことがありますが、そのための最良のモジュールと方法を知りたいです。これを解析したい:

<div class="blalbal"><h2>DATA5</h2>
<div class="blabla">
<table class="tabledata">
<tr><th>Blablabla:</th><td>DATA3<br>(DATA4)</td></tr>
<tr><th>Blablabla:</th><td>DATA2</td></tr>
<tr><th>Blablabla:</th><td>DATA1</td></tr>
</td>

DATA1、DATA2、DATA3 (DATA4)、DATA5 のような文字列として

だから、これがどのように可能であるか(ほんの一例)、そして最良かつ最速の方法は何かを見たいと思います. ありがとう!

4

1 に答える 1

-1

Python HTMLParser ドキュメントから:

from HTMLParser import HTMLParser

# create a subclass and override the handler methods
class MyHTMLParser(HTMLParser):
    def handle_starttag(self, tag, attrs):
        print "Encountered a start tag:", tag
    def handle_endtag(self, tag):
        print "Encountered an end tag :", tag
    def handle_data(self, data):
        print "Encountered some data  :", data

# instantiate the parser and fed it some HTML
parser = MyHTMLParser()
parser.feed('<html><head><title>Test</title></head>'
            '<body><h1>Parse me!</h1></body></html>')

あなたの場合、handle_data関数を使用して HTML コンテンツを印刷できます。

于 2013-01-16T14:25:59.273 に答える