これは簡単な作業のように思えますが、どういうわけか私の頭を包み込むことはできません。H1 ~ H4 のヘッダーを含む HTML ファイルがあります。H3タグ間のコンテンツを取得したいと思います。2 つの H3 間のテキスト<H3>
で</H3>
はなく、2 つの H3 間のテキストです。
<H3>some text</H3>
<p> more text that I would like to grab</p>
<H3> some other text </H3>
<p> some more text that I'd like to get </p>
... 前もって感謝します
サンプル出力について説明するように求められました。以下のコメントで説明したと思います。同じことを繰り返しますが、不明な点があればお知らせください。
入力: 多くの H3 見出しを含む長いファイル
出力: それぞれが H3 見出しを含む行で始まり、次の H3 見出しの前の行で終わるフラグメントを含む多数の小さなファイル。