次のコードを使用して、標準入力から読み取った文字列をトークン化します。
d=[]
cur = ''
for i in sys.stdin.readline():
if i in ' .':
if cur not in d and (cur != ''):
d.append(cur)
cur = ''
else:
cur = cur + i.lower()
これにより、繰り返されない単語の配列が得られます。ただし、出力では、一部の単語は分割されません。
私の入力は
Dan went to the north pole to lead an expedition during summer.
出力配列 d は
[「ダン」、「行った」、「へ」、「ザ」、「北」、「ポール」、「トゥリード」、「アン」、「遠征」、「中」、「夏」]
なぜtolead
一緒なの?