CountVectorizer() および TfidfTransformer() (TfidfVectorizer()) によって生成される標準の tfidf 機能と、いくつかの言語機能の 2 種類の機能を使用してテキスト分類を行う sklearn パイプラインがあります。さまざまな ngram 範囲を CountVectorizer() に渡してから、GridSearh を使用して最適な n を見つけようとしました。
これが私のコードです:
text_clf = Pipeline([('union', FeatureUnion([
('tfidf', Pipeline([
('sents', GetItem(key='sent')),
('vect', CountVectorizer()),
('transform', TfidfTransformer())
])),
('LF', Pipeline([
('features', GetItem(key='features')),
('dict_vect', DictVectorizer())
]))],
transformer_weights={'LF': 0.6, 'tfidf': 0.8}
)),
('clf', SGDClassifier())
])
parameters = [{'union__tfidf__vect__model__ngram_range': ((1, 1), (1, 2), (1, 3), (1, 4)),
'clf__alpha': (1e-2, 1e-3, 1e-4, 1e-5),
'clf__loss': ('hinge', 'log', 'modified_huber', 'squared_hinge', 'perceptron'),
'clf__penalty': ('none', 'l2', 'l1', 'elasticnet'),
'clf__n_iter': (3, 4, 5, 6, 7, 8, 9, 10)}]
gs_clf = GridSearchCV(text_clf, parameters, cv=5, n_jobs=-1)
gs_clf = gs_clf.fit(all_data, labels)
(問題に関係がないように思われる行をいくつか省略しています。)
しかし、それはエラーをスローします:
ValueError: Invalid parameter model for estimator CountVectorizer(analyzer=u'word', binary=False, charset=None,
charset_error=None, decode_error=u'strict',
dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content',
lowercase=True, max_df=1.0, max_features=None, min_df=1,
ngram_range=(1, 1), preprocessor=None, stop_words=None,
strip_accents=None, token_pattern=u'(?u)\\b\\w\\w+\\b',
tokenizer=None, vocabulary=None)
TfidfVectorizer() でも同じことが起こります。
ngram_range をパイプラインのベクトライザーに直接渡すと、すべて正常に動作します。
('vect', CountVectorizer(ngram_range=(1,2)))
ありがとう!