明確にするために、これはスクレイピングの質問ではありません。
同様の HTML ファイルの編集を自動化しようとしています。これには、タグ間のコンテンツの削除が含まれます。
HTML ファイルをローカルで編集する場合、ファイルを open() してからコンテンツを 1 行ずつ文字列にダンプする方が簡単で、正規表現を適用しやすくなりますか?
ありがとう
HTML のような構造化されたマークアップの場合、正規表現よりもBeautifulSoupのようなパーサーを使用することをお勧めします。これには、不正な HTML に対するより良い結果と複雑さの軽減 (車輪を再発明する必要がない) が含まれます。
ただし、この質問を額面どおりに考えると、readlinesを使用して HTML を行に分割する方が簡単なように思われます。これにより、正規表現を適用するときに一度に 1 行だけを処理できます。
独自のテンプレート言語を作成する (これがこのタスクの意味です) のではなく、既に存在する多くのテンプレート言語の 1 つを使用し、それを使用して必要な操作を実行することをお勧めします。Jinja2、Django Templates、または Cheetah を試して、気に入ったものを確認してください。他にもたくさんあります。