python - Pythonreを使用してリンクを削除します

Question

文字列が次のようになっているとしましょう<a href="/wiki/Greater_Boston" title="Greater Boston">Boston–Cambridge–Quincy, MA–NH MSA</a>

リンクを削除して一部reのみを取得するにはどうすればよいですか？Boston–Cambridge–Quincy, MA–NH MSA

私は何かを試しましmatch = re.search(r'<.+>(\w+)<.+>', name_tmp)たが、うまくいきませんでした。

score 3 · Accepted Answer

re.sub('<a[^>]+>(.*?)</a>', '\\1', text)

一般にHTMLの解析はかなり危険であることに注意してください。ただし、MediaWikiで生成されたリンクを解析しているようですが、リンクは常に同様の形式であると想定しても問題ないため、その正規表現で問題ないはずです。

score 3 · Accepted Answer

bleachモジュールhttps://pypi.python.org/pypi/bleachを使用することもできます。このモジュールは、htmlサニタイズツールをラップし、htmlのテキストをすばやく削除できます。

2 に答える 2