いくつかのテキストと数値の特徴で構成されるデータセットがあります。scikit の TfidfVectorizer を使用してテキスト データを解析した後、これらの機能を他の数値機能と組み合わせて、それらがすべて同じスケールであることを確認するにはどうすればよいですか?
コードは次のようになります (省略されています)。
import pandas as p
import numpy as np
trframe = p.read_table(train_file)
traindata = list(np.array(trframe)[:, 2]) #textual
traindata_numfeats = list(np.array(trframe)[:, [4, 16, 17, 20, 22]])
tfv = TfidfVectorizer(min_df=3, max_features=None, strip_accents='unicode',
analyzer='word', token_pattern=r'\w{1,}',
tokenizer=tokenizer, ngram_range=(1, 1), use_idf=1,
smooth_idf=1, sublinear_tf=1)
tfv.fit(traindata)
x_all = tfv.transform(traindata) #how to combine x_all with traindata_numfeats?
ご意見ありがとうございます。