0

テキスト ドキュメントで次の句読点とエンティティを削除する必要があります。

  1. &#151&#148、を削除&#some number
  2. ; , . ( ) [ ] * ! !
  3. &nbsp

&#some numberこれを使用して削除できることを知っています&nbsp。ただし、初心者として、他のものを削除するために同じことができるかどうかはわかりませ;,

match = re.sub(r'&#146', '', open('test2.txt', 'r').read())

また、同じコードを何度も実行するのではなく、一度にすべてを削除できる方法はありますか。

4

2 に答える 2

0

すでにすべてが文字列に含まれている場合は、次のように単純に使用できますtranslate()

>>> s
"hello there ! this is a string with $ some % characters I & don't ( want!"
>>> s.translate(None,"$!%&(")
"hello there  this is a string with  some  characters I  don't  want"
于 2012-08-28T06:15:59.813 に答える
0

これらは、HTML および URL でエンコードされたエンティティのように見えます。

さまざまな手段を使用してそれらをデコードできます

于 2012-08-28T03:42:47.650 に答える