1

こんにちは私はここでさまざまな投稿を行いましたが、どれも私の質問に答えていません。2つの問題があります。1。poplibを使用してメールを取得するスクリプトを作成しました。メールの本文を解析しようとするまで、すべてが正常に機能します。タグとその中のデータを削除します。私は今や諦め、私が間違っている場所やそれを機能させるために何をすべきかという正しい方向にあなたたちが私を導いてくれることを願ってここにいます。

これがパーサースクリプトのソースです

import sys
import socket
import poplib
import email
import csv
import re
try:
  host = "mail.someserver.com"
  mail = poplib.POP3(host)
  print mail.getwelcome()
  print mail.user("username@someserver.com")
  print mail.pass_("qaiaJWkvZT")
  print mail.stat()
  print mail.list()
  print ""

  emailWriter = csv.writer(open('emailMessages.csv', 'wb'), delimiter=',', quotechar='\'', quoting=csv.QUOTE_MINIMAL)
  emailWriter.writerow(['Messages'])
  if mail.stat()[1] > 0:
      print "You have new mail."
  else:
      print "No new mail."

  print ""

  numMessages = len(mail.list()[1])
  for i in range(numMessages):
      for j in mail.retr(i+1)[1]:
          #print j
          msg = email.message_from_string(j) # new statement
          print msg.get_payload(decode=True)
          #emailWriter.writerow([msg.get_payload(decode=True)]) # new statement

  mail.quit()
  input("Press any key to continue.")
except socket.error as e:
  print "Something went wrong! :(\nREASON:\n{0}:{1}".format(e.errno, e.strerror)
  raise
except:
  print "Something went wrong!", sys.exc_info()[0]
  raise

上記のスクリプトが生成する出力は次のとおりです

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.or
g/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<style type="text/css">
BODY {







}
TD {



}
TH {


}
H1 {

}
TABLE,IMG,A {

}
</style>
</head>
<body>


<p><strong>PO Number:</strong> 35164</p>

<p><strong>Ship To:</strong><br />
Joe Pasloski<br />
16 Redwood Drive<br />Yorkton, SK  S3N2X7<br />
204-473-2218</p>


<table cellspacing="0" cellpadding="5" border="1" width="710" align="left">
<tr>



</tr>
<tr>



</tr>
</table>
</body>
</html>

ただし、スクリプトを変更してj変数をループ内に直接出力すると、次のようになります。

Return-Path: <orders@someserver.com>
Delivered-To: username@someserver.com
Received: (qmail 7636 invoked by uid 48); 14 Jul 2012 23:29:11 -0000
Date: 14 Jul 2012 23:29:11 -0000
Message-ID: <20120714232911.7635.qmail@b.inetuhosted.net>
To: username@someserver.com
Subject: Drop Ship Order - Joe Pasloski
From: Someserver.com <orders@someserver.com>
X-Mailer: PHP/5.2.17
MIME-Version: 1.0
Content-Type: multipart/alternative;
         boundary="2631183869_50020"
Reply-to: SomeServer.com <orders@someserver.com>
X-Antivirus: avast! (VPS 120714-2, 07/15/2012), Inbound message
X-Antivirus-Status: Clean

--2631183869_50020
Content-Type: text/plain;
        charset="iso-8859-1"
Content-Transfer-Encoding: 8bit



--2631183869_50020
Content-Type: text/html;
        charset="iso-8859-1"
Content-Transfer-Encoding: 8bit

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.or
g/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<style type="text/css">
BODY {
        MARGIN-TOP: 10px;
        MARGIN-BOTTOM: 10px;
        MARGIN-LEFT: 10px;
        MARGIN-RIGHT: 10px;
        FONT-SIZE: 12px;
        FONT-FAMILY: arial,helvetica,sans-serif
        PADDING: 0px;
}
TD {
        FONT-SIZE: 12px;
        FONT-FAMILY: arial,helvetica,sans-serif
        COLOR: #000000;
}
TH {
        FONT-SIZE: 13px;
        FONT-FAMILY: arial,helvetica,sans-serif
}
H1 {
    FONT-SIZE: 20px
}
TABLE,IMG,A {
        BORDER: 0px;
}
</style>
</head>
<body>


<p><strong>PO Number:</strong> 35164</p>

<p><strong>Ship To:</strong><br />
Joe Pasloski<br />
16 Redwood Drive<br />Yorkton, SK  S3N2X7<br />
204-473-2218</p>

<p><strong>Items:</strong>
<table cellspacing="0" cellpadding="5" border="1" width="710" align="left">
<tr>
        <th align="left" width="100">SKU</th>
        <th align="left" width="550">Product</th>
        <th align="left" width="60">Qty</th>
</tr>
<tr>
        <td>JJ-Hamper-Firetruck</td>
        <td>Frankie's Fire Truck Laundry Hamper</td>
        <td>1</td>
</tr>
</table>
</body>
</html>

生のメッセージを処理する必要がある場合、データを失うことなく、メッセージの本文部分から不要なhtmlタグを効果的に取り除くにはどうすればよいですか?または、get_payload()メソッドを使用して可能であれば、それを機能させるために何ができますか。

助けてください!

2.さらに、正規表現を使用してテーブルに含まれるすべてのSKU情報を取得する方法はありますか?あなたが私にそれも提供できればそれはプラスになるでしょう。トンありがとう

4

1 に答える 1

1

わかりました、私は自分で答えを見つけました。ドキュメントにはすべてが記載されており、Pythonでの投稿:poplibを使用して電子メールメッセージのHTML本文を取得するにはどうすればよいですか?正しい方向に進むのに役立ちました。私が扱っているメッセージはマルチパートタイプではなく、get_payload()を適用している間、htmlデータが失われることを知っていたので、htmlタグを取り除くためにいくつかの正規表現ルーチンを実装する必要がありました。生のメッセージ、そのために私は生のメッセージでAaron Swartzによるhtml2textライブラリをダウンロードして使用し、次にmsg.get_payload()を実行しました。これが私が行ったことです。

import html2text # added to my source
numMessages = len(mail.list()[1])
  for i in range(numMessages):
      for j in mail.retr(i+1)[1]:

          msg = email.message_from_string(html2text.html2text(j)) 
          print msg.get_payload(decode=False)

それは私に順番に与えました

charset="iso-8859-1"











BODY {









}


TD {





}


TH {




}


H1 {



}


TABLE,IMG,A {



}










**PO Number:** 35170




**Ship To:**


Tami Curtis


67 E. Spring Creek Pkwy

Providence, UT 84332


4357553197









SKU


Product


Qty






JJ-Panel-Isabella-BK-PRT


Isabella Black Damask Curtains (2 Panels)


1

今、私はそれを正規表現でもう少しクリーンアップして、不要な改行/空白とcssマークアップのreifも取得する必要があります。

それが他の人にも役立つことを願っています:)乾杯!

于 2012-07-15T12:59:58.707 に答える