ファイルからデータを取得します。
words = re.findall(r'[\w]+',self._from.encode('utf8'),re.U)
ファイルに以下が含まれている場合:
こんにちは、元気ですか?
結果は次のようになります。
['こんにちは、元気ですか']
ただし、ファイルにロシア語 (キリル文字など) が含まれている場合は、次のようになります。
あなたは何ですか?
この場合、結果は次のようになります。
['\xd0', '\xd1', '\xd0', '\xd0\xb2\xd0\xb5\xd1', '\xd0\xba\xd0', '\xd0\xba', '\xd0', '\xd0\xb5\xd0', '\xd0']
なぜ?なんだ?私はすでに追加しました:
sys.setdefaultencoding('utf-8')
私はpython2.7とlinux ubuntuを使用しています。
答え:
words = re.findall(r'[\w]+',self._from.decode('utf8'),re.U)
print u" ".join(words)