私はこれをやろうとしています:
val = re.sub(r'\b' + u_word +'\b', unicode(new_word), u_text)
(すべての文字列は非ラテン語です。)
まったく機能しません。
非ラテン語テキストの非ラテン語 (単語全体) を正規表現で検索置換することは可能ですか? どのように?
編集:
テストしたい場合は、次の文字列を試してください。
>>> u_word = u'αβ'
>>> u_text = u'αβγ αβ αβγδ δαβ'
>>> new_word = u'χχ'
>>> val = re.sub(r'\b' + u_word +r'\b', unicode(new_word), u_text)
>>> val
u'\u03b1\u03b2\u03b3 \u03b1\u03b2 \u03b1\u03b2\u03b3\u03b4 \u03b4\u03b1\u03b2'
>>> u_text
u'\u03b1\u03b2\u03b3 \u03b1\u03b2 \u03b1\u03b2\u03b3\u03b4 \u03b4\u03b1\u03b2'
>>>