Pythonで正規表現を使用して段落から文を抽出しようとしています。
通常、私がテストしているコードは文を正しく抽出しますが、次の段落では文が正しく抽出されません。
段落:
「しかし、マラリア感染症や敗血症の場合、全身の樹状細胞が免疫系に警告することに集中しているため、新たな感染を検出して対応することができなくなります。」新しいタイプのワクチン?
コード:
def splitParagraphIntoSentences(paragraph):
import re
sentenceEnders = re.compile('[.!?][\s]{1,2}(?=[A-Z])')
sentenceList = sentenceEnders.split(paragraph)
return sentenceList
if __name__ == '__main__':
f = open("bs.txt", 'r')
text = f.read()
mylist = []
sentences = splitParagraphIntoSentences(text)
for s in sentences:
mylist.append(s.strip())
for i in mylist:
print i
上記の段落でテストすると、入力段落とまったく同じ出力が得られますが、出力は次のようになります-
しかし、マラリア感染症や敗血症の場合、全身の樹状細胞が免疫系に警告することに集中しているため、新たな感染を検出して対応することができなくなります。
新しいタイプのワクチン
正規表現に問題はありますか?