社内 Web アプリのテキスト領域のテキストからいくつかのオプションを抽出する次の python スクリプトに問題があります。
import re
text = 'option one\noption two, option three, option four'
correct = 'option one, option two, option three, option four'
pattern = re.compile('(\s*[,]\s*)')
fixed = pattern.sub(', ', text)
print fixed
option one
option two, option three, option four
print fixed.split(', ')
['option one\noption two', 'option three', 'option four']
これは明らかに「オプション 1\nオプション 2」を「オプション 1」、「オプション 2」に分割できません。
したがって、入力は次のようになります
option one
option two, option three, option four
これはに変換する必要があります
option one, option two, option three, option four
コンマの場合は正常に機能します
また
コンマの後に改行
しかし、それ自体が単なる改行である場合はそうではありません。