text 1 のような標準の段落書式 (空白行の後にインデントが続く) を持つテキストがある場合、text.split("\n\n") を使用して段落を簡単に抽出できます。
文1:
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus sit amet sapien velit, ac sodales
ante. Integer mattis eros non turpis interdum et auctor enim consectetur, etc.
Praesent molestie suscipit bibendum. Donec justo purus, venenatis eget convallis sed, feugiat
vitae velit,etc.
しかし、テキスト 2 のような非標準の段落書式のテキストがある場合はどうすればよいでしょうか? 空白行はなく、先頭の空白は可変です。
テキスト 2:
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus sit amet sapien velit, ac sodales
ante. Integer mattis eros non turpis interdum et auctor enim consectetur, etc.
Praesent molestie suscipit bibendum. Donec justo purus, venenatis eget convallis sed, feugiat
vitae velit,etc.
先頭の空白は標準形式と非標準形式の両方に共通であるため、先頭の空白の正規表現一致でインデックスを作成し、そのように段落区切りを取得することを考えましたが、これを行うためのよりエレガントな方法が必要です。