0

IMAP4_SSL と python を使用して、gmail アカウントからメールを取得しています。メール本文は html 形式で取得されます。それを平文に変換する必要があります。誰でもそれで私たちを助けることができますか?

4

1 に答える 1

2

巨人の肩の上に立つ...
Peter Bengtsson は、まさにこの問題の解決策をここで見つけました。Peter のスクリプトは、 Leonard Richardson による
素晴らしいBeautifulSoup
と、Fredrik Lundh のunescape() 関数を使用しています。

Peter のテスト ケースを使用すると、次のようになります。

This is a paragraph.

Foobar [1]
http://two.com

Visit http://www.google.com.

Text elsewhere. Elsewhere [2]

[1] http://one.com
[2] http://three.com

...これから:

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN">
<html>
<body>

<div id="main">
<p>This is a paragraph.</p>

<p><a href="http://one.com">Foobar</a>
<br />

<a href="http://two.com">two.com</a>

</p>
  <p>Visit <a href="http://www.google.com">www.google.com</a>.</p>
<br />
Text elsewhere.

<a href="http://three.com">Elsewhere</a>

</div>
</body>
</html>
于 2009-06-04T06:05:17.167 に答える