これは私がこれまでに持っているものです:
import re
import csv
outfile1 = open('test_output.csv', 'wt')
outfileWriter1 = csv.writer(outfile1, delimiter=',')
rawtext = open('rawtext.txt', 'r').read()
print(rawtext)
rawtext = rawtext.lower()
print(rawtext)
re.sub('[^A-Za-z0-9]+', '', rawtext)
print(rawtext)
まず、これを実行すると句読点が削除されないので、私の表現に何か問題があるのだろうか?
次に、句読点があるかどうかでフラグが付けられたすべての単語の .csv リストを作成しようとしています。たとえば、「Hello! It's a nice day.」というテキスト ファイルです。出力します:
ID, PUNCTUATION, WORD
1, Y, hello
2, Y, its
3, N, a
4, N, nice
5, Y, day
.split() を使用して単語を分割できることは知っていますが、それ以外の方法はわかりません! どんな助けでも大歓迎です。