Python と scikit-learn を使用してテキスト分類を行っています。
現在、TfidfVectorizer をベクトライザー (生のテキストを特徴ベクトルに変換するため) として使用し、MultinomialNB を分類器として使用しています。パラメータ ngram_range = (1,2) を使用します ( http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.htmlを参照)。たとえば、1 つの単語とバイグラムを使用します。
テスト セットと CV セットでアルゴリズムを分類してテストした後、精度を向上させたいと考えています。最も有益な機能が表示されます(scikit-learn classifiers の最も有益な機能を取得するにはどうすればよいですか?という質問による)。そして、セットの最も有益な機能には、分類に影響を与えない単語 ( ngram=1) がありますが、バイグラム (単語のコロケーション) では大きな影響を与えることがわかります。
Tfidfvectorizer はコロケーションでこの単語を考慮せず、同じ理由でプリプロセッサを使用できないため、stop_words を使用できません。質問: tfidfvectorizer で一部の単語を除外し、この単語を別のコロケーションに保存するにはどうすればよいですか?