テキストファイルからユニグラムを生成しようとしています。ただし、指定されたファイルの最初の行のバイグラムのみが表示されます。ファイル内のすべての文のユニグラムを表示したいと思います。
import string;
import sys;
import tokenize;
f = open("data.txt", 'r');
line=f.readline();
while line:
line = line.rstrip();
list = line.split();
for word in list:
print word
line = f.readline();
なぜ文のユニグラムが表示されないのですか?また、これをバイグラムに変換するにはどうすればよいですか?
前もって感謝します。
data.txtは、文を含むテキストファイルです。2つの文があります-
Hello world this is a test code
today is 29th november 2011
出力を取得しています:
Hello
world
this
is
a
test
コード