0

次のようなデータセットがあります。

category 1  category 2  prediction

    X   a   1
    Y   b   0
    Z   b   1
    X   a   1
    Y   a   0
    Z   b   0
    X   b   1
    Y   f   1
    Z   d   1

これらが3つの列であるとしましょう。列 1 と 2 はテキスト機能であり、数値データではないことに注意してください。私の入力データには、15 ~ 20 の異なるタイプが含まれcategory 1ます。のこのタイプのそれぞれは、category 1のタイプを持つことができますcategory 2。例えば。タイプ2 回または 3 回Xのエントリと、タイプ 2 回のエントリを持つことができます。3 番目の列は出力です。そのようなデータセットでモデルをトレーニングしたいのですが、最終的にモデルがトレーニングされた後、&のいずれかを渡したいと思います。例: & - これにより、 orの予測出力が得られるはずです。この目的のためにロジスティック回帰を使用するつもりです。abcategory 1category 2Xa10

質問:

  1. テキストデータがあるので、ダミーを使用して、タイプごとに列を作成する必要がありますか? (たとえば、 があるので、 3 つの異なる列を作成してX、またはを割り当てる必要があります。YZ10

  2. これにロジスティック回帰を使用できますか、それとも私のアプリケーションに適していませんか? (私は予測の確率を得たいと思い1ます)

どんな提案も役に立ちます。

4

1 に答える 1