numpy - 数値属性を持つ公称値を処理するための戦略

Question

私は SFDC の名目上の値 (例: EE 名、役職、役割、リードソース、アカウント名など) で構成されるデータセットを使用しており、その機能を、セールスリードがあったかどうかのブール値クラスに関連付けようとしています。営業担当者に変わりました。

このデータをいくつかの基本的な特徴選択アルゴリズムで実行したかったのですが、ほとんどの場合、数値のみが必要です。ブールマッピングスキームを使用して、一意の分類のそれぞれを新しいフィールド (機能) にマップできますが、非常に多数の新しい機能が生成され、意味のある出力が得られるかどうかはわかりません。確かに、最善の解決策はデシジョンツリーを介してデータを実行することかもしれませんが、現実の世界でうまく使用されているほとんど名目上のデータのデータセットを処理するために、他の人がコミュニティで思いついた他の戦略があるかどうかを確認したかったのです。アプリケーション。

私は scipy/numpy/pandas/scikit-learn で python を使用して分析を行っています。

score 1 · Accepted Answer

最初にsklearn.feature_extraction.DictVectorizerを使用してから、スパースデータ表現で機能するChi2単変量特徴選択を試してみます。たとえば、scikit-learnには、スパーステキストデータに対するchi2特徴選択のアプリケーションがあります：http ：//scikit-learn.org/dev/auto_examples/document_classification_20newsgroups.html

残念ながら、scikit-learnの決定木とアンサンブルはまだスパース表現では機能しません。

numpy - 数値属性を持つ公称値を処理するための戦略

1 に答える 1

Related

Reference