python - python 正規表現はテキスト内のすべての単語を検索します

Question

これは非常に単純に聞こえますが、何らかの理由で必要なすべての結果を得ることができません

この場合の単語は、たとえば次の文字列のように、空白で区切られた空白以外の任意の文字です。結果は次のようになります: ['Hello','there','stackoverflow.']

私のコード:

import re

word_pattern = "^\S*\s|\s\S*\s|\s\S*$"
result = re.findall(word_pattern,text)
print result

しかし、私が示したように文字列でこのパターンを使用した後、リストの最初と最後の単語のみが配置され、2 つのスペースで区切られた単語は配置されません

このパターンの問題点は何ですか？

score 6 · Accepted Answer

\b代わりに境界テストを使用します。

r'\b\S+\b'

結果：

>>> import re
>>> re.findall(r'\b\S+\b', 'Hello there StackOverflow.')
['Hello', 'there', 'StackOverflow']

または、正規表現をまったく使用せずに.split();を使用します。後者は文中に句読点を含みます (上記の正規表現は.文中のと一致しませんでした)。

score 2 · Accepted Answer

文字列内のすべての単語を検索するにはsplit

>>> "Hello there stackoverflow.".split()
['Hello', 'there', 'stackoverflow.']

ただし、正規表現を使用する必要がある場合は、正規表現をより単純で高速なものに変更する必要がありますr'\b\S+\b'。

したがって、一緒に表示されるすべての文字セット (単語/数字) を見つけることを意味します。

score 0 · Accepted Answer

他の答えは良いです。必要に応じて (句読点やその他の単語以外の文字を含める/除外するなど)、正規表現を使用して 1 つ以上の空白文字で分割することもできます。

re.split(r'\s+', 'Hello there   StackOverflow.')
['Hello', 'There', 'StackOverflow.']

score 0 · Accepted Answer

単に使用するのはどうですか -

>>> s = "Hello there stackoverflow."
>>> s.split()
['Hello', 'there', 'stackoverflow.']

4 に答える 4