python - PythonでマークアップなしでHTMLをテキストに変換するにはどうすればよいですか?

Question

<br>要素を改行として尊重しながら、HTML ドキュメントからプレーンテキストを取得する必要があります。改行BeautifulSoup.textを処理しません。<br>HTML2Text は非常に優れていますが、マークダウンに変換されます。他にどのようにこれにアプローチできますか？

score 4 · Accepted Answer

私は次の方法を使用するのが好きです。新しい行を尊重.replace('<br>','\r\n')するために、文字列を渡す前に文字列でマニュアルを実行できます。strip_tags(html)

この質問から：

from HTMLParser import HTMLParser

class MLStripper(HTMLParser):
    def __init__(self):
        self.reset()
        self.fed = []
    def handle_data(self, d):
        self.fed.append(d)
    def get_data(self):
        return ''.join(self.fed)

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

score 0 · Accepted Answer

タグを取り除いてスペースに置き換えることができます (必要な場合):

import re

myString = re.sub(r"<(/)?br(/)?>", "\n", myString)
myString = re.sub(r"<[^>]*>", " ", myString)

python - PythonでマークアップなしでHTMLをテキストに変換するにはどうすればよいですか?

2 に答える 2

Related

Reference