1

utf-8文字列をログに記録するために、印刷が内部で行うログ記録のために手作業で行う必要があることはありますか?

for line in unicodecsv.reader(cfile, encoding="utf-8"):
    for i in line:
        print "process_clusters: From CSV: %s" % i
        print "repr: %s" % repr(i)
        log.debug("process_clusters: From CSV: %s", i)

文字列がラテン語ベースであろうとロシア語キリル文字であろうと、私の印刷ステートメントは正常に機能します。

process_clusters: From CSV: escuchan
repr: u'escuchan'
process_clusters: From CSV: говоритъ
repr: u'\u0433\u043e\u0432\u043e\u0440\u0438\u0442\u044a'

ただし、log.debugでは同じ変数を渡すことができません。このエラーが発生します:

Traceback (most recent call last):
  File "/System/Library/Frameworks/Python.framework/Versions/2.6/lib/python2.6/logging/__init__.py", line 765, in emit
    self.stream.write(fs % msg.encode("UTF-8"))
  File "/System/Library/Frameworks/Python.framework/Versions/2.6/lib/python2.6/codecs.py", line 686, in write
    return self.writer.write(data)
  File "/System/Library/Frameworks/Python.framework/Versions/2.6/lib/python2.6/codecs.py", line 351, in write
    data, consumed = self.encode(object, self.errors)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xd0 in position 28: ordinal not in range(128)

私のログ、フォーマッター、ハンドラーは次のとおりです。

log = logging.getLogger(__name__)
loglvl = getattr(logging, loglevel.upper()) # convert text log level to numeric
log.setLevel(loglvl) # set log level
handler = logging.FileHandler('inflection_finder.log', 'w', 'utf-8')
handler.setFormatter(logging.Formatter('[%(levelname)s] %(message)s'))
log.addHandler(handler)

Python2.6.7を使用しています。

4

2 に答える 2

2

トレースバックを読むと、ログ モジュールがメッセージを書き込む前にエンコードしようとしているようです。メッセージは ASCII 文字列であると想定されますが、UTF-8 文字が含まれているため、そうではありません。メッセージをロガーに渡す前に Unicode に変換すると、うまくいく可能性があります。

    log.debug(u"process_clusters: From CSV: %s", i)

編集、パラメーター文字列が既に Unicode にデコードされていることに気付いたので、それに応じて例を更新しました。

また、最新の編集に基づいて、セットアップで Unicode 文字列を使用することをお勧めします。

handler.setFormatter(logging.Formatter(u'[%(levelname)s] %(message)s'))
                                     --^--
于 2013-02-20T21:30:48.120 に答える
1

Python2 のすべての文字列と Unicode は混乱しています... 幸いなことに Python3 で修正されました。しかし、Python3 への移行がオプションではないと仮定すると、ここに移動します。

logging私が見たように、エンコーディングに関して使用する場合、2 つのオプションがあります。

  1. ファイルをバイナリとして開き、すべての文字列をバイト文字列として使用します。
  2. ファイルをテキストとして開き、すべての文字列を Unicode 文字列として使用します。

他のオプションは運命づけられています!

"utf-8"問題は、ファイルを開くときにエンコーディングを指定するが、ロシア語のテキストがユニコード文字列であることです。

したがって、次のいずれか(1つだけ)を実行できます。

  1. ファイルをバイナリで開きます。つまり"utf-8"、構造から引数を削除しますFileStream
  2. 関連するすべてのテキストを、 への引数と への引数を含む Unicode 文字列に変換しlog.debugますlogging.Formatter
于 2013-02-21T12:02:50.713 に答える