私はテキスト分類を行っており、トレーニング データに取り込まれていない単語を処理します。つまり、その単語は不明として扱われるべきです。
トレーニング データに存在しない場合、scikit の相互検証が特定の単語を目に見えないものとして扱うかどうかは誰にもわかりませんか?
または、トレーニング セットに含まれていなくても、scikit はすべての単語を機能として扱いますか?
私はテキスト分類を行っており、トレーニング データに取り込まれていない単語を処理します。つまり、その単語は不明として扱われるべきです。
トレーニング データに存在しない場合、scikit の相互検証が特定の単語を目に見えないものとして扱うかどうかは誰にもわかりませんか?
または、トレーニング セットに含まれていなくても、scikit はすべての単語を機能として扱いますか?
特徴抽出器 (CountVectorizer や TfidfVectorizer など) と分類器の両方をラップするパイプラインでクロス検証を行う場合、すべてが自動的にすぐに機能します。訓練 テストセットは単に無視されます (ベクトル表現の次元にマップされません)。
vocabulary_
属性を使用してフィーチャー名をディメンションにマップする方法について詳しくは、テキスト フィーチャー抽出に関するドキュメントを参照してください。
特徴抽出コンポーネントと分類子を含むパイプラインをクロス検証する方法を示す例もあります。
編集:列車/テストのタイプミスを修正
編集 2 : 例への壊れたリンクを修正しました。