2

明確にするために、これはスクレイピングの質問ではありません。

同様の HTML ファイルの編集を自動化しようとしています。これには、タグ間のコンテンツの削除が含まれます。

HTML ファイルをローカルで編集する場合、ファイルを open() してからコンテンツを 1 行ずつ文字列にダンプする方が簡単で、正規表現を適用しやすくなりますか?

ありがとう

4

2 に答える 2

1

HTML のような構造化されたマークアップの場合、正規表現よりもBeautifulSoupのようなパーサーを使用することをお勧めします。これには、不正な HTML に対するより良い結果と複雑さの軽減 (車輪を再発明する必要がない) が含まれます。

ただし、この質問を額面どおりに考えると、readlinesを使用して HTML を行に分割する方が簡単なように思われます。これにより、正規表現を適用するときに一度に 1 行だけを処理できます。

于 2013-09-24T15:53:53.280 に答える
0

独自のテンプレート言語を作成する (これがこのタスクの意味です) のではなく、既に存在する多くのテンプレート言語の 1 つを使用し、それを使用して必要な操作を実行することをお勧めします。Jinja2、Django Templates、または Cheetah を試して、気に入ったものを確認してください。他にもたくさんあります。

于 2013-09-24T17:20:27.973 に答える