0

文字列が次のようになっているとしましょう<a href="/wiki/Greater_Boston" title="Greater Boston">Boston–Cambridge–Quincy, MA–NH MSA</a>

リンクを削除して一部reのみを取得するにはどうすればよいですか?Boston–Cambridge–Quincy, MA–NH MSA

私は何かを試しましmatch = re.search(r'<.+>(\w+)<.+>', name_tmp)たが、うまくいきませんでした。

4

2 に答える 2

3
re.sub('<a[^>]+>(.*?)</a>', '\\1', text)

一般にHTMLの解析はかなり危険であることに注意してください。ただし、MediaWikiで生成されたリンクを解析しているようですが、リンクは常に同様の形式であると想定しても問題ないため、その正規表現で問題ないはずです。

于 2013-02-23T23:43:38.857 に答える
3

bleachモジュールhttps://pypi.python.org/pypi/bleachを使用することもできます。このモジュールは、htmlサニタイズツールをラップし、htmlのテキストをすばやく削除できます。

于 2013-02-24T00:21:20.157 に答える