複数のスペースで区切られた文字列を分割しようとしています。
string1 = "abcd efgh a. abcd b efgh"
print re.findall(r"[\w.]+")
予想通り、結果は次のとおりです。
['abcd', 'efgh', 'a.', 'abcd', 'b', 'efgh']
ただし、「a」をグループ化したいと思います。と 'abcd' を同じグループに、'b' と 'efgh' を同じグループにします。したがって、私が望む結果は次のようになります。
['abcd', 'efgh', 'a. abcd', 'b efgh']
現在の私のアプローチは、2 種類の表現を作成することです。'abcd' と 'efgh' など、スペースのない正規表現を最初に処理します。1 つのスペースを持つものを処理する 2 番目。つまり、「a.」+ 'abcd'.
したがって、r'[\w]+ が最初のタイプを処理でき、r'[\w]+ [\w]+ が 2 番目のタイプを処理できる場合。しかし、「|」を使用してそれらを同じ式に結合する方法がわかりません。
いつものように、他のアプローチは大歓迎です。そして、お時間をありがとう!