2

xlsx Pythonライブラリを使用してXLSXドキュメントを読み取っていますが、一部の列データに。などの特殊文字が含まれています_x000D_。これを元の形式に変換するにはどうすればよいですか?

4

1 に答える 1

4

が 16 進コード ポイントで Unicode 文字を表すと想定されている場合_x000D_は、正規表現式を使用して文字を見つけ、コールバック関数を使用して文字を適切な値に変換できます。

import re

input_string = "H_x00E9_llo W_x00D8_rld!"

def parse_escaped_character_match(match):
    return unichr(int(match.group(1), 16))

print re.sub("_x([0-9A-F]{4})_", parse_escaped_character_match, input_string)
# prints "Héllo WØrld!"
于 2011-07-15T22:24:56.973 に答える