numpy - TfIdfVectorizer のマトリックスを scikit Learn の別のマトリックスと結合してスケーリングします

翻译自：https://stackoverflow.com/questions/19542099 2013-10-23T12:45:23.367

467 次

いくつかのテキストと数値の特徴で構成されるデータセットがあります。scikit の TfidfVectorizer を使用してテキストデータを解析した後、これらの機能を他の数値機能と組み合わせて、それらがすべて同じスケールであることを確認するにはどうすればよいですか?

コードは次のようになります (省略されています)。

import pandas as p
import numpy as np
trframe = p.read_table(train_file)
traindata = list(np.array(trframe)[:, 2]) #textual
traindata_numfeats = list(np.array(trframe)[:, [4, 16, 17, 20, 22]])
tfv = TfidfVectorizer(min_df=3,  max_features=None, strip_accents='unicode',
                      analyzer='word', token_pattern=r'\w{1,}',
                      tokenizer=tokenizer, ngram_range=(1, 1), use_idf=1,
                      smooth_idf=1, sublinear_tf=1)
tfv.fit(traindata)
x_all = tfv.transform(traindata) #how to combine x_all with traindata_numfeats?

ご意見ありがとうございます。

numpy - TfIdfVectorizer のマトリックスを scikit Learn の別のマトリックスと結合してスケーリングします

0 に答える 0

Related

Reference