python - 正規表現、Python、ドキュメントコメント

Question

私は Python 2.7 でプログラミングしています。beautifulsoup4 を使用して、一連のドキュメントのタグから情報を抽出しています。ただし、ドキュメントには次のような文字列があります。

<!-- PJG ITAG l=90 g=1 f=4 -->

それらを取り除きたいのですが、私は正規表現の専門家ではありません。誰かがこれを手伝ってくれますか？

score 3 · Accepted Answer

まず、HTML を BeautifulSoup にロードします。

from bs4 import BeautifulSoup, Comment
soup = BeautifulSoup(the_html)

次に、すべてのコメントを削除します。

comments = soup.find_all(text = lambda text:isinstance(text, Comment))
for comment in comments:
    comment.extract()

python - 正規表現、Python、ドキュメント コメント