4

email.generator.GeneratorPython 3.2でバイナリを使用するように説得するにはどうすればよいですか?これは、Python 3.3で導入されたフレームワークのユースケースのように思えますpolicyが、コードを3.2で実行したいと思います。

from email.parser import Parser
from email.generator import Generator
from io import BytesIO, StringIO

data = "Key: \N{SNOWMAN}\r\n\r\n"
message = Parser().parse(StringIO(data))
with open("/tmp/rfc882test", "w") as out:
    Generator(out, maxheaderlen=0).flatten(message)

で失敗しUnicodeEncodeError: 'ascii' codec can't encode character '\u2603' in position 0: ordinal not in range(128)ます。

4

2 に答える 2

4

あなたのデータは有効な RFC2822 ヘッダーではありません。誤解を招く可能性があります。Unicode 文字列ですが、RFC2822 は常に ASCII のみです。非 ASCII 文字を使用するには、文字セットと base64 または quoted-printable エンコーディングでエンコードする必要があります。

したがって、有効なコードは次のようになります。

from email.parser import Parser
from email.generator import Generator
from io import BytesIO, StringIO

data = "Key: =?utf8?b?4piD?=\r\n\r\n"
message = Parser().parse(StringIO(data))
with open("/tmp/rfc882test", "w") as out:
    Generator(out, maxheaderlen=0).flatten(message)

もちろん、これはエラーを完全に回避します。

問題は、そのようなヘッダーを生成する方法で=?utf8?b?4piD?=あり、答えはemail.headerモジュールにあります。

この例を次のように作成しました。

>>> from email import header
>>> header.Header('\N{SNOWMAN}', 'utf8').encode()
'=?utf8?b?4piD?='

email モジュールの形式を持つファイルを処理するにKey: Valueは、間違ったソリューションです。このようなファイルの処理は、電子メール モジュールがなくても十分に簡単であり、RF2822 の制限を回避する必要はありません。例えば:

# -*- coding: UTF-8 -*-
import io
import sys
if sys.version_info > (3,):
    def u(s): return s
else:
    def u(s): return s.decode('unicode-escape')

def parse(infile):
    res = {}
    payload = ''

    for line in infile:
        key, value = line.strip().split(': ',1)
        if key in res:
            raise ValueError(u("Key {0} appears twice").format(key))
        res[key] = value
    return res

def generate(outfile, data):
    for key in data:
        outfile.write(u("{0}: {1}\n").format(key, data[key]))


if __name__ == "__main__":
    # Ensure roundtripping:
    data = {u('Key'): u('Value'), u('Foo'): u('Bar'), u('Frötz'): u('Öpöpöp')}
    with io.open('/tmp/outfile.conf', 'wt', encoding='UTF8') as outfile:
        generate(outfile, data)

    with io.open('/tmp/outfile.conf', 'rt', encoding='UTF8') as infile:
        res = parse(infile)

    assert data == res

このコードの作成には 15 分かかり、Python 2 と Python 3 の両方で動作します。行の継続などが必要な場合は、追加も簡単です。

これは、コメントなどをサポートするより完全なものです。

于 2012-08-19T19:16:45.240 に答える
0

便利な解決策はhttp://mail.python.org/pipermail/python-dev/2010-October/104409.htmlにあります:

from email.parser import Parser
from email.generator import BytesGenerator

# How do I get surrogateescape from a BytesIO/StringIO?
data = "Key: \N{SNOWMAN}\r\n\r\n" # write this to headers.txt
headers = open("headers.txt", "r", encoding="ascii", errors="surrogateescape")
message = Parser().parse(headers)
with open("/tmp/rfc882test", "wb") as out:
    BytesGenerator(out, maxheaderlen=0).flatten(message)

Key: valueこれは、エンコーディングを気にせずにバイナリ ファイルを読み書きしたいプログラム用です。ヘッダーを で書き戻すことなく、デコードされたテキストとして使用するにはGenerator()Parser().parse(open("headers.txt", "r", encoding="utf-8"))十分なはずです。

于 2012-08-20T13:31:04.920 に答える