1

私のデータが果物で構成されており、その色と形、および任意の値を持つより多くの機能 (テクスチャ サイズの皮の種類など) で記述されているとします。

sklearn.treeを使用してデータを決定木に適合させたい

sklearn.tree で決定木を構築するにはどうすればよいですか。X によって定義されたサンプルと機能配列とは何ですか。Y とは何ですか。DB の場合、mongodb を使用するため、データセットは json にあります。

{"_id":2323, "shape":"round", "color":[red,green], "texture":"A", "pill":"X", "more":[1,2,3]}

{"_id":2324, "shape":"round", "color":[orange], "texture":"C", "pill":"", "more":[1,2]}

sklearn.tree で決定木を構築するために必要な python データ型にデータを適合/変換するためのチュートリアルはありますか?

ありがとうございました!

4

1 に答える 1

2

特徴抽出に関するドキュメントをご覧ください。

編集: json コンストラクトにネストされた構造があることに気付きました。DictVectorizerおよびFeatureHasherクラスは両方とも、入力としてフラットな辞書を想定しています。たとえば、次のような構成を自分でフラット化できます。

{"_id": 2323, "shape": "round", "color/red": 1 "color/green": 1, "texture": "A",
 "pill": "X", "more/1": 1, "more/2": 1, "more/3": 1}

そして、そのようなフラットな python dict のリストに対してDictVectorizerorを呼び出します。FeatureHasher

于 2013-03-01T19:16:48.840 に答える