Python には多数の XML パーサーと HTML パーサーがあり、できれば XPATH コンストラクトを使用して、HTML ドキュメントのセクションを抽出する簡単な方法を探していますが、それはオプションです。
ここに例があります
src = "<html><body>...<div id=content>AAA<B>BBB</B>CCC</div>...</body></html>"
id=content で要素の本文全体を抽出したいので、結果は次のようになります。<div id=content>AAA<B>BBB</B>CCC</div>
新しいライブラリをインストールせずにこれを行うことができればよいでしょう。
また、目的の要素の元のコンテンツを取得したいと思います(再フォーマットされていません)。
XML/HTML の解析には安全ではないため、regexp の使用は許可されていません。