1

私が処理しなければならないこの非常に手に負えないスレッドがあります。これらのメールはそれぞれ通常どおりに返信されただけなので、数百通に達するまで、それぞれのメールに完全な履歴が残っていても問題はありませんでした。

それで、それらをすべて Thunderbird で開き、エクスポートしました。ここで、各メールをそれぞれの内容だけに分解する方法を見つけなければなりません。返信先の部分は残しておきますが、他のメールの実際の内容は削除してください。

私はPythonに精通しており、以前にXMLの解析に使用したことがあるので、現在Pythonを使用しています。BeautifulSoup を試してみましたが、3D の "gmail_quote" div 要素を取り除くのにうまく機能しているように見えましたが、そうすることで、.eml ファイルの残りの部分を他の要素にさまざまなビットをラップすることで理解しようとしたようです。フォーマットを台無しにします。

したがって、純粋な XML ではないが有効な XML を多く含むファイルから、特定の div クラスとその子のすべてのインスタンスをプレーン テキストに触れることなく取り除く方法を見つける必要があります。処理したいセクションはすべて有効な XML です (または、属性に奇妙な引用符が付いた BeautifulSoup に十分近いものです)。

本文から返信を削除する必要があることもわかっていますが、それは簡単です。

4

1 に答える 1

0

サンプルを見ないと、必要なことを達成する方法を確実に言うことはできませんが、email モジュールのパーサーが .eml ファイルの解析を処理するはずです。

于 2012-02-17T11:53:20.673 に答える