python - Pythonを使用してテキストから単語を抽出するには?

Question

テキスト内の単語やフレーズを抽出する必要があります。たとえば、テキストは次のとおりです。

Привет, hello, как дела? english word, еще одно русское слово, слово-1224, тест 4456

そして、スクリプトは次を返す必要があります。

Привет
как
дела
еще
одно
русское
слово
слово-1224

つまり、ロシア語の文字 ( [а-яА-Яё-]) で始まり、ロシア語のアルファベットの数字と文字を含めることができるすべての単語のテキストから取得する必要があります。これはどのように実装されていますか？

score 1 · Accepted Answer

思っていたよりも少し手こずりました。キリル文字を使用したことがありません。私はこれがすべきだと信じています:

text =  # Set you're input unicode string here.
words = re.findall('[\p{IsCyrillic}][0-9\p{IsCyrillic}]+', text)

for word in words:
    print word

1 に答える 1