文字列のリストから句読点を削除する関数があります。
def strip_punctuation(input):
x = 0
for word in input:
input[x] = re.sub(r'[^A-Za-z0-9 ]', "", input[x])
x += 1
return input
最近、他の非西洋文字を処理できるように、Unicode文字列を使用するようにスクリプトを変更しました。この関数は、これらの特殊文字に遭遇すると機能しなくなり、空のUnicode文字列を返すだけです。Unicode形式の文字列から句読点を確実に削除するにはどうすればよいですか?