PythonでHTML解析を行う必要があります。いくつかの調査の後、lxml が私の最良の選択のようですが、私がやろうとしていることを助ける例を見つけるのに苦労しています。これが私が聞いている理由です。表示可能なすべてのテキストのページをスクレイピングする必要があります。すべてのタグと JavaScript を取り除きます。表示可能なテキストを残すために必要です。十分に単純に聞こえます..私はHTMLParserでそれを行いましたが、JavaScriptをうまく処理していません
class HTML2Text(HTMLParser.HTMLParser):
def __init__(self):
HTMLParser.HTMLParser.__init__(self)
self.output = cStringIO.StringIO()
def get_text(self):
return self.output.getvalue()
def handle_data(self, data):
self.output.write(data)
def ParseHTML(source):
p = HTML2Text()
p.feed(source)
text = p.get_text()
return text
lxmlでこれを行う方法、またはHTMLParserを使用するより良い方法についてのアイデア..追加のライブラリが必要ないため、HTMLParserが最適です..みんなに感謝します
スコット F.