0

テキスト内の単語やフレーズを抽出する必要があります。たとえば、テキストは次のとおりです。

Привет, hello, как дела? english word, еще одно русское слово, слово-1224, тест 4456

そして、スクリプトは次を返す必要があります。

Привет
как
дела
еще
одно
русское
слово
слово-1224

つまり、ロシア語の文字 ( [а-яА-Яё-]) で始まり、ロシア語のアルファベットの数字と文字を含めることができるすべての単語のテキストから取得する必要があります。これはどのように実装されていますか?

4

1 に答える 1

1

思っていたよりも少し手こずりました。キリル文字を使用したことがありません。私はこれがすべきだと信じています:

text =  # Set you're input unicode string here.
words = re.findall('[\p{IsCyrillic}][0-9\p{IsCyrillic}]+', text)

for word in words:
    print word
于 2013-03-11T08:05:06.017 に答える