1

私は Python 2.7 でプログラミングしています。beautifulsoup4 を使用して、一連のドキュメントのタグから情報を抽出しています。ただし、ドキュメントには次のような文字列があります。

<!-- PJG ITAG l=90 g=1 f=4 -->

それらを取り除きたいのですが、私は正規表現の専門家ではありません。誰かがこれを手伝ってくれますか?

4

1 に答える 1

3

まず、HTML を BeautifulSoup にロードします。

from bs4 import BeautifulSoup, Comment
soup = BeautifulSoup(the_html)

次に、すべてのコメントを削除します。

comments = soup.find_all(text = lambda text:isinstance(text, Comment))
for comment in comments:
    comment.extract()
于 2013-04-10T02:09:04.663 に答える