0

100 個のトレーニング ファイルを読み取り、sklean を使用してそれらをベクトル化しようとしています。これらのファイルの内容は、システム コールを表す単語です。ベクトル化したら、ベクトルを印刷したいと思います。私の最初の試みは次のとおりです。

import re
import os
import sys
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
import numpy as np
import numpy.linalg as LA

trainingdataDir = 'C:\data\Training data'

def readfile():
    for file in os.listdir(trainingdataDir):
        trainingfiles = os.path.join(trainingdataDir, file)
        if os.path.isfile(trainingfiles):
         data = open(trainingfiles, "rb").read()

    return data 

train_set = [readfile()]

vectorizer = CountVectorizer()
transformer = TfidfTransformer()

trainVectorizerArray = vectorizer.fit_transform(train_set).toarray()
print 'Fit Vectorizer to train set', trainVectorizerArray

ただし、これは最後のファイルのベクトルのみを返します。print 関数は for ループに配置する必要があると結論付けました。したがって、2回目の試み:

def readfile():
    for file in os.listdir(trainingdataDir):
        trainingfiles = os.path.join(trainingdataDir, file)
        if os.path.isfile(trainingfiles):
         data = open(trainingfiles, "rb").read()
    trainVectorizerArray = vectorizer.fit_transform(data).toarray()
    print 'Fit Vectorizer to train set', trainVectorizerArray          

ただし、これは何も返しません。これについて私を助けてもらえますか?ベクトルが印刷されているのを確認できないのはなぜですか?

4

1 に答える 1

0

この問題は、ベクトル化に使用されるデータ セットのリストが空だったことが原因でした。100 個のファイルのセットをベクトル化することができました。最初にファイルを開き、次に各ファイルを読み取り、最後にそれらをリストに追加しました。データ セットのリストは、「tfidf_vectorizer」によって使用されます。

import re
import os
import sys
import numpy as np
import numpy.linalg as LA
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer

trainingdataDir = 'C:\\data\\Training data'

tfidf_vectorizer = TfidfVectorizer()

transformer = TfidfTransformer()
def readfile(trainingdataDir):
    train_set = []
    for file in os.listdir(trainingdataDir):
        trainingfiles = os.path.join(trainingdataDir, file)
        if os.path.isfile(trainingfiles): 
            data = open(trainingfiles, 'r')
            data_set=str.decode(data.read())
            train_set.append(data_set)
    return train_set 


tfidf_matrix_train = tfidf_vectorizer.fit_transform(readfile(trainingdataDir))
print 'Fit Vectorizer to train set',tfidf_matrix_train
print "cosine scores ==> ",cosine_similarity(tfidf_matrix_train[0:1], tfidf_matrix_train)
于 2015-10-22T09:02:54.723 に答える