むかしむかし、私はこの質問が面白いと感じました。
今日、私はその本のテキストをいじってみることにしました。
このスクリプトで正規表現を使用したいと思います。キリル文字でスクリプトを使用すると、すべてのキリル文字が消去され、句読点と空白だけが残ります。
#!/usr/bin/env python3.2
# coding=UTF-8
import sys, re
for file in sys.argv[1:]:
f = open(file)
fs = f.read()
regexnl = re.compile('[^\s\w.,?!:;-]')
rstuff = regexnl.sub('', f)
f.close()
print(rstuff)
この回答では、非常によく似たことがすでに行われています。
基本的に、アルファベット、英数字、句読点、または空白文字以外の文字セットを指定できるようにしたいだけです。