Web ページから抽出したテキスト データにパッチを適用したいと考えています。サンプル:
t="First sentence. Second sentence.Third sentence."
2 番目の文の末尾のポイントの後にスペースはありません。これは、元の文書では 3 番目の文が (br タグの後に) 別の行にあったことを示しています。
この正規表現を使用して、「\n」文字を適切な場所に挿入し、テキストにパッチを適用したいと考えています。私の正規表現:
t2=t.gsub(/([.\!?])([A-Z1-9])/,$1+"\n"+$2)
しかし、残念ながらうまくいきません: "NoMethodError: undefined method `+' for nil:NilClass" 一致したグループを適切に後方参照するにはどうすればよいですか? Microsoft Word ではとても簡単だったので、\1 と \2 記号を使用するだけで済みました。