0

私はPythonを使用してIMDbからいくつかの情報をかき集めており、指定されたテキスト+それに続く12文字を空白に置き換えようとしています。これは可能ですか?次に例を示します。

私は文字列を持っています

'<a href="/name/nm2142796/">Santino Rice</a> tells Roxxxy Andrews that she was "like Chewbaca in drag."'

'<a href="/name/nm2142796/">'をに置き換えたいの''ですが、次のような方法はありますか:

string.replace('<a href="/name/'+12,'')

それはかなり出てきますが、nm#######常に異なります(ただし、常に nm に続く 7 桁です)。

4

2 に答える 2

3

これは厳密にあなたが求めているものです:

import re
re.sub('<a href="/name/.{9}', '', string)

文字列とさらに 9 文字を置き換えます。

re.sub('<a href="/name/[^>]*>',  '', string)

文字数に依存しなくても機能します。

しかしもちろん、文字列操作を使用して html を消去しようとする代わりに、html 解析を使用する方がよいでしょう。たとえば、BeautifulSoup 、またはlxmlhtmlparser ... のいずれかを選択します。

于 2013-07-13T20:19:33.740 に答える