2

単語をタグに変換するために文を分割したい (で単純な全文検索を行うためMongodb)、コンマやコロンを保存したくない:

phrase = "hello, this is a simple description!"
pattern  = "[\"\'\!\?\:\,\;]"

私はこれを試しました:

re.split(pattern, phrase)
Out[1]: ['hello', ' this is a simple description', ''] # as you can see, i've always blank characters.

「文字以外の文字」をすべて削除したいのですが、phrase.replace(",", " ")1文字しか置換されません。置換で正規表現を使用するにはどうすればよいですか? ss何かre.remove(pattern, phrase)、ループしていませんか、これはサーバーに負担がかかりますか?

4

2 に答える 2

4

non-regex解決策:を使用strip()しますが、文字以外のすべての文字を渡す必要があります。

何かのようなもの:strip(',!*&^%#$;:+')

In [12]: phrase = "hello, this is: a simple; description!!"
In [13]:  [x.strip(',!*&^%#$;:+') for x in phrase.split()]

Out[13]: ['hello', 'this', 'is', 'a', 'simple', 'description']
于 2012-09-15T16:27:03.827 に答える
2

単語以外の文字を分割\Wすると、単語のみの配列が残ります。

于 2012-09-15T16:26:21.510 に答える