一部のテキストからすべての特殊文字を削除しようとしています。これが私の正規表現です:
pattern = re.compile('[\W_]+', re.UNICODE)
words = str(pattern.sub(' ', words))
非常に単純ですが、残念ながら、アポストロフィ (一重引用符) を使用すると問題が発生します。たとえば、「doesn't」という単語がある場合、このコードは「doesn」を返します。
このような場合にアポストロフィを削除しないように、この正規表現を適応させる方法はありますか?
編集:これが私が求めているものです:
doesn't this mean it -technically- works?
次のようにする必要があります。
これは技術的に機能するという意味ではありませんか