テキストを抽出する必要があるhtmlファイルがたくさんありますが、リストの内容は抽出しません。htmlは次のようになります
<html>
<Head>
<title>intranet mycompany</title>
</head>
<body>
<div>blah</div>
<p>the text i need to extract
<br>
<ul>
<li>stuff i don't want.</li>
<li>more stuff i don't want.</li>
</ul>More text i need to exctract.</p>
</body>
</html>
リストからテキストではなく、段落からテキストを取得する方法についてのアドバイスが本当に欲しいです。アドバイスをいただければ幸いです。
よろしく、ジョンボ。