0

したがって、R ではロジスティック回帰のデータを次の形式で提供できることを知っています。

model <- glm( cbind(count_1, count_0) ~ [features] ..., family = 'binomial' )

cbind(count_1, count_0)sklearn.linear_model.LogisticRegressionのようなことをする方法はありますか? それとも、実際にこれらすべての重複行を提供する必要がありますか? (私の機能はカテゴリ別なので、多くの冗長性があります。)

4

1 に答える 1

0

それらがカテゴリである場合は、バイナリ化されたバージョンを提供する必要があります。R のコードがどのように機能するかはわかりませんが、常にカテゴリ機能を 2 値化する必要があります。機能の各値が他の値に関連していないことを強調する必要があるため、つまり、可能な値が 1、2、3、4 の機能「blood_type」の場合、分類子は 2 が 3 に関連しておらず、4 が関連していないことを学習する必要があります。何らかの意味で 1 に関連しています。これらは 2 値化によって実現されます。

二値化後の機能が多すぎる場合は、FeatureHasher または PCA などのより洗練された方法で、二値化されたデータセットの次元を減らすことができます。

于 2016-04-21T02:47:45.950 に答える