ひらがなとカタカナの両方の Unicode 文字を含むサンプル文字列:
myString = u"Eliminate ひらがな non-alphabetic カタカナ characters"
http://www.rikai.com/library/kanjitables/kanji_codes.unicode.shtmlによると、両方の範囲に一致するパターン
myPattern = u"[\u3041-\u309f]*|[\u30a0-\u30ff]*"
シンプルな Python 正規表現置換関数
import re
print re.sub(myPattern, "", myString)
戻り値:
Eliminate non-alphabetic カタカナ characters
それを機能させる唯一の方法は、2 つの範囲を別々に使用することです。この RegEx が単純に | パイプの両側を選択するのを妨げているのは何ですか?