次のようなデータセットがあります。
category 1 category 2 prediction
X a 1
Y b 0
Z b 1
X a 1
Y a 0
Z b 0
X b 1
Y f 1
Z d 1
これらが3つの列であるとしましょう。列 1 と 2 はテキスト機能であり、数値データではないことに注意してください。私の入力データには、15 ~ 20 の異なるタイプが含まれcategory 1ます。のこのタイプのそれぞれは、category 1のタイプを持つことができますcategory 2。例えば。タイプ2 回または 3 回Xのエントリと、タイプ 2 回のエントリを持つことができます。3 番目の列は出力です。そのようなデータセットでモデルをトレーニングしたいのですが、最終的にモデルがトレーニングされた後、&のいずれかを渡したいと思います。例: & - これにより、 orの予測出力が得られるはずです。この目的のためにロジスティック回帰を使用するつもりです。abcategory 1category 2Xa10
質問:
テキストデータがあるので、ダミーを使用して、タイプごとに列を作成する必要がありますか? (たとえば、 があるので、 3 つの異なる列を作成して
X、またはを割り当てる必要があります。YZ10これにロジスティック回帰を使用できますか、それとも私のアプリケーションに適していませんか? (私は予測の確率を得たいと思い
1ます)
どんな提案も役に立ちます。