私は単語を一連の文字 (a から Z まで) として定義します。これにはアポストロフィも含まれる場合があります。単語からアポストロフィを削除して、文を単語に分割したいと考えています。
私は現在、テキストから単語を取得するために次のことを行っています。
import re
text = "Don't ' thread \r\n on \nme ''\n "
words_iter = re.finditer(r'(\w|\')+', text)
words = (word.group(0).lower() for word in words_iter)
for i in words:
print(i)
これは私に与えます:
don't
'
thread
on
me
''
しかし、私が望んでいないのは:
dont
thread
on
me
これを実現するためにコードを変更するにはどうすればよいですか?
'
私の出力には何もないことに注意してください。
私もwords
発電機になりたいです。