正規表現\w
は私の Unicode 文字列を無視しているようです。次の関数を作成しました:
extras.py
# -*- coding: utf-8 -*-
def test(word):
print re.sub(r'[^\w]+', '', word, re.U)
そしてdjangoシェルから:
import extras
extras.test(u'שלום')
この例では、出力は空の文字列ですが、入力と同じである必要があります。
正規表現の目的は英数字のみを保持することですが、機能しません。ただし、ASCIIで動作します。
何が問題になる可能性がありますか?