scikit-learn の計算は NumPy に基づいているため、すべてが行列または配列であることはわかっています。
このパッケージは混合データ (数値と公称値) をどのように処理しますか?
たとえば、製品には「色」と「価格」という属性があり、色は公称値で、価格は数値です。公称データを数値化するための「DictVectorizer」というモデルがあることに気付きました。たとえば、次の 2 つの製品があります。
products = [{'color':'black','price':10}, {'color':'green','price':5}]
「DictVectorizer」の結果は次のようになります。
[[1,0,10],
[0,1,5]]
属性「色」にさまざまな値が多数ある場合、マトリックスは非常にまばらになります。また、機能が長いと、決定木などの一部のアルゴリズムのパフォーマンスが低下します。
ダミーコードを作成せずに公称値を使用する方法はありますか?