次のようなデータセットがあります。
category 1 category 2 prediction
X a 1
Y b 0
Z b 1
X a 1
Y a 0
Z b 0
X b 1
Y f 1
Z d 1
これらが3つの列であるとしましょう。列 1 と 2 はテキスト機能であり、数値データではないことに注意してください。私の入力データには、15 ~ 20 の異なるタイプが含まれcategory 1
ます。のこのタイプのそれぞれは、category 1
のタイプを持つことができますcategory 2
。例えば。タイプ2 回または 3 回X
のエントリと、タイプ 2 回のエントリを持つことができます。3 番目の列は出力です。そのようなデータセットでモデルをトレーニングしたいのですが、最終的にモデルがトレーニングされた後、&のいずれかを渡したいと思います。例: & - これにより、 orの予測出力が得られるはずです。この目的のためにロジスティック回帰を使用するつもりです。a
b
category 1
category 2
X
a
1
0
質問:
テキストデータがあるので、ダミーを使用して、タイプごとに列を作成する必要がありますか? (たとえば、 があるので、 3 つの異なる列を作成して
X
、またはを割り当てる必要があります。Y
Z
1
0
これにロジスティック回帰を使用できますか、それとも私のアプリケーションに適していませんか? (私は予測の確率を得たいと思い
1
ます)
どんな提案も役に立ちます。