いくつかのテキスト分類タスクで Chi-2 特徴選択を試しています。Chi-2 テストは依存関係 B/T の 2 つのカテゴリ変数をチェックすることを理解しています。したがって、バイナリ BOW ベクトル表現を使用したバイナリ テキスト分類問題に対して Chi-2 特徴選択を実行すると、各 (feature,class) に対する各 Chi-2 テストが行われます。ペアは、自由度 1 の非常に単純な Chi-2 テストになります。
ドキュメントからの引用: http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.chi2.html#sklearn.feature_selection.chi2、
このスコアを使用して、X からの χ² (カイ 2 乗) 統計の値が最も高い n_features 特徴を選択できます。この統計には、ブール値または度数 (ドキュメント分類の単語数など) が含まれている必要があります。
DF (単語数) ベクトル表現で Chi-2 特徴選択も実行できるように思えます。私の最初の質問は次のとおりです。sklearn はどのように整数値の特徴をカテゴリカルに離散化しますか?
私の 2 番目の質問は最初の質問と似ています。ここのデモ コードから: http://scikit-learn.sourceforge.net/dev/auto_examples/document_classification_20newsgroups.html
TF*IDF ベクトル表現で Chi-2 特徴選択も実行できるように思えます。sklearn は実数値の特徴に対して Chi-2 特徴選択をどのように実行しますか?
親切なアドバイスをありがとうございました!