私のデータは、連続的特徴とカテゴリ特徴の組み合わせで構成されています。以下は、私のデータがcsv形式でどのように見えるかの小さなスニペットです(さまざまな都市で店舗を運営するスーパーストアチェーンによって収集されたデータと考えてください)
city,avg_income_in_city,population,square_feet_of_store_area, store_type ,avg_revenue
NY ,54504 , 3506908 ,3006 ,INDOOR , 8000091
CH ,44504 , 2505901 ,4098 ,INDOOR , 4000091
HS ,50134 , 3206911 ,1800 ,KIOSK , 7004567
NY ,54504 , 3506908 ,1000 ,KIOSK , 2000091
彼女を見ると、avg_income_in_city、square_feet_of_store_area、および avg_revenue が連続値であり、city、store_type などはカテゴリ クラスであることがわかります (データの簡潔さを維持するために、ここでは示していません)。
収益を予測するためにデータをモデル化したいと考えています。問題は、sklearn を使用して連続値を「離散化」する方法です。sklearn は、連続値の離散化のための「既製の」クラス/メソッドを提供していますか? (Orange のように、Orange.Preprocessor_discretize(data, method=orange.EntropyDiscretization()) など)
ありがとう !