12

scikit-learn の計算は NumPy に基づいているため、すべてが行列または配列であることはわかっています。

このパッケージは混合データ (数値と公称値) をどのように処理しますか?

たとえば、製品には「色」と「価格」という属性があり、色は公称値で、価格は数値です。公称データを数値化するための「DictVectorizer」というモデルがあることに気付きました。たとえば、次の 2 つの製品があります。

products = [{'color':'black','price':10}, {'color':'green','price':5}]

「DictVectorizer」の結果は次のようになります。

[[1,0,10],
 [0,1,5]]

属性「色」にさまざまな値が多数ある場合、マトリックスは非常にまばらになります。また、機能が長いと、決定木などの一部のアルゴリズムのパフォーマンスが低下します。

ダミーコードを作成せずに公称値を使用する方法はありますか?

4

1 に答える 1

6

scikit-learn の DecisionTree クラスは、カーディナリティの高いカテゴリ機能を効率的に処理するために、リファクタリングが必要になります (テキスト TF-IDF ベクトルなどの自然にまばらなデータでも)。

誰もまだそれに取り組んでいません。

于 2012-07-27T15:49:24.390 に答える