1 つのテキスト ファイルを読み取り、テキストマイニング パッケージを使用して用語ドキュメント マトリックスを作成しようとしています。各行を追加する必要がある用語ドキュメント マトリックスを作成できます。問題は、一度にファイル全体を含めたいということです。次のコードで何が欠けていますか? 提案をお寄せいただきありがとうございます。
import textmining
def term_document_matrix_roy_1():
'''-----------------------------------------'''
with open("data_set.txt") as f:
reading_file_line = f.readlines() #entire content, return list
print reading_file_line #list
reading_file_info = [item.rstrip('\n') for item in reading_file_line]
print reading_file_info
print reading_file_info [1] #list-1
print reading_file_info [2] #list-2
'''-----------------------------------------'''
tdm = textmining.TermDocumentMatrix()
#tdm.add_doc(reading_file_info) #Giving error because of readlines
tdm.add_doc(reading_file_info[0])
tdm.add_doc(reading_file_info[1])
tdm.add_doc(reading_file_info[2])
for row in tdm.rows(cutoff=1):
print row
サンプル テキスト ファイル: "data_set.txt" には、次の情報が含まれています。
Pythonコードを書いてみましょう
これまで、本書では主にアドホック検索のプロセスについて説明してきました。
その過程で、いくつかの重要な機械学習技術を学びます。
出力は Term Document Matrix で、基本的に特定の単語が何回出現するかです。出力画像: http://postimg.org/image/eidddlkld/