1

私は千行のイタリア語のテキストを読み、ユニークな単語の辞書を作成しています。句読点を削除する 2 つの方法を試しました。

for p in string.punctuation:
     word = word.replace(p, str())

また :

for line in f:
    for word in line.split():
        stripped_text =""
        for char in word:
            if char in '!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~>><<<<?>>?123456789':
               char = ''
               stripped_text += char

私の問題は、これにはまだ句読点が含まれていることです:

{'<<Dicerolti': 1,'piage>>.': 1,'succia?>>.': 1,…}

何かアイデアはありますか?

4

1 に答える 1

1

これには re モジュールを使用し、printf スタイルのちょっとしたトリックを使用して、置換の句読点にフラグを立てる正規表現を作成できます。

import string
import re
a = '>>some_crazy_string..!'
print re.sub('[%s]' % string.punctuation,'',a)

プリントアウト

いくつかのクレイジーストリング

このトリックは、ログ ファイルを「匿名化」するために数回使用しました。

于 2013-11-07T17:06:41.390 に答える