本文に単体テスト結果を含む html ファイルの簡単な解析を試みています
url = urllib2.urlopen('file:/randomstuff/results.txt').read()
soup = BeautifulSoup(url, 'lxml')
save = soup.body.findAll(text = re.compile("failed"))
これから得られる最善の方法は、lxml と html5lib を使用したテキストの 1 つのインスタンス (50 に近い場合) です。他のパーサーは何も見つけません。壊れたhtmlを回避できる方法はありますか?
体の例はこれです
********* LogLevelTypeTest のテストが完了しました *********
********* AppLoggerConfigTest のテストを開始します *********
設定: QTest ライブラリ 4.8 を使用します.1、Qt 4.8.1
PASS : initTestCase
PASS : testSetFromEnvironment
PASS : cleanupTestCase
合計: 3 合格、0 失敗、0 スキップ
Htmlはこんな感じ
<html>
<head></head>
<body>
<pre style="word-wrap: break-word; white-space: pre-wrap;">
"Common Unit Test Results"
...
...
</pre>
</body>