1

これは私がこれまでに持っているものです:

import re
import csv

outfile1 = open('test_output.csv', 'wt')
outfileWriter1 = csv.writer(outfile1, delimiter=',')

rawtext = open('rawtext.txt', 'r').read()
print(rawtext)

rawtext = rawtext.lower()
print(rawtext)

re.sub('[^A-Za-z0-9]+', '', rawtext)
print(rawtext)

まず、これを実行すると句読点が削除されないので、私の表現に何か問題があるのだろうか?

次に、句読点があるかどうかでフラグが付けられたすべての単語の .csv リストを作成しようとしています。たとえば、「He​​llo! It's a nice day.」というテキスト ファイルです。出力します:

ID, PUNCTUATION, WORD
1,  Y,           hello
2,  Y,           its
3,  N,           a
4,  N,           nice
5,  Y,           day

.split() を使用して単語を分割できることは知っていますが、それ以外の方法はわかりません! どんな助けでも大歓迎です。

4

2 に答える 2