0

私は SFDC の名目上の値 (例: EE 名、役職、役割、リード ソース、アカウント名など) で構成されるデータ セットを使用しており、その機能を、セールス リードがあったかどうかのブール値クラスに関連付けようとしています。営業担当者に変わりました。

このデータをいくつかの基本的な特徴選択アルゴリズムで実行したかったのですが、ほとんどの場合、数値のみが必要です。ブール マッピング スキームを使用して、一意の分類のそれぞれを新しいフィールド (機能) にマップできますが、非常に多数の新しい機能が生成され、意味のある出力が得られるかどうかはわかりません。確かに、最善の解決策はデシジョン ツリーを介してデータを実行することかもしれませんが、現実の世界でうまく使用されているほとんど名目上のデータのデータ セットを処理するために、他の人がコミュニティで思いついた他の戦略があるかどうかを確認したかったのです。アプリケーション。

私は scipy/numpy/pandas/scikit-learn で python を使用して分析を行っています。

4

1 に答える 1

1

最初にsklearn.feature_extraction.DictVectorizerを使用してから、スパースデータ表現で機能するChi2単変量特徴選択を試してみます。たとえば、scikit-learnには、スパーステキストデータに対するchi2特徴選択のアプリケーションがあります:http ://scikit-learn.org/dev/auto_examples/document_classification_20newsgroups.html

残念ながら、scikit-learnの決定木とアンサンブルはまだスパース表現では機能しません。

于 2013-03-10T21:05:43.370 に答える