したがって、次のようなテキストドキュメントがいくつかあります。
1a Title
Subtitle
Description
1b Title
Subtitle A
Description
Subtitle B
Description
2 Title
Subtitle A
Description
Subtitle B
Description
Subtitle C
Description
正規表現を使用して、3 つのタブでインデントされた「説明」行をキャプチャしようとしています。私が抱えている問題は、説明行が次の行に折り返され、再び 3 つのタブでインデントされることがあります。次に例を示します。
1 Demo
Example
This is the description text body that I am
trying to capture with regex.
このテキストを 1 つのグループにまとめて、次のようにしたいと考えています。
This is the description text body that I am trying to capture with regex.
これができるようになったら、ドキュメントを「フラット化」して、行やタブではなく文字で区切られた 1 行の各セクションを作成したいと考えています。したがって、私のコード例は次のようになります。
1->Demo->->Example->->->This is the description text...
これを Python で実装しますが、正規表現のガイダンスをいただければ幸いです。
UPTADE
フラット化されたテキストの区切り文字を変更して、以前の関係であることを示しました。すなわち; 1 タブ->
、2 タブ->->
、3 タブ->->->
など。
さらに、タイトル (セクション) ごとに複数のサブタイトル (サブセクション) がある場合、平坦化されたテキストは次のようになります。
1a->タイトル->->字幕->->->説明
1b->タイトル->->字幕A->->->説明
1b->タイトル->->字幕B->->->説明
2->タイトル->->字幕A->->->説明
2->タイトル->->字幕B->->->説明
2->タイトル->->字幕C->->->説明
基本的には、各子 (サブタイトル) の親 (番号/タイトル) を「再利用」するだけです。