0

本文に単体テスト結果を含む html ファイルの簡単な解析を試みています

url = urllib2.urlopen('file:/randomstuff/results.txt').read()
soup = BeautifulSoup(url, 'lxml')
save = soup.body.findAll(text = re.compile("failed"))

これから得られる最善の方法は、lxml と html5lib を使用したテキストの 1 つのインスタンス (50 に近い場合) です。他のパーサーは何も見つけません。壊れたhtmlを回避できる方法はありますか?

体の例はこれです

********* LogLevelTypeTest のテストが完了しました *********
********* AppLoggerConfigTest のテストを開始します *********
設定: QTest ライブラリ 4.8 を使用します.1、Qt 4.8.1
PASS : initTestCase
PASS : testSetFromEnvironment
PASS : cleanupTestCase
合計: 3 合格、0 失敗、0 スキップ

Htmlはこんな感じ

<html>
   <head></head>
   <body>
   <pre style="word-wrap: break-word; white-space: pre-wrap;">
      "Common Unit Test Results"
      ...
      ...
   </pre>
 </body>

4

0 に答える 0