machine-learning - ロジスティック回帰データセットのラベルの意味は何ですか?

Question

ロジスティック回帰について数日間学習しましたが、ロジスティック回帰のデータセットのラベルは 1 または 0 である必要があると思いますが、正しいですか?

しかし、libSVMライブラリの回帰データセットを検索すると、ラベルの値が連続していることがわかります (例: 1.0086,1.0089 ...)。

libSVM ライブラリは回帰問題に使用できることに注意してください。

本当にありがとう！

score 3 · Accepted Answer

その名前に反して、ロジスティック回帰は分類アルゴリズムであり、データポイントで条件付けされたクラス確率を出力します。したがって、トレーニングセットのラベルは 0 または 1 にする必要があります。あなたが言及したデータセットの場合、ロジスティック回帰は適切なアルゴリズムではありません。

SVM は分類アルゴリズムであり、入力ラベル -1 または 1 を使用します。これは確率アルゴリズムではなく、クラス確率を出力しません。また、回帰にも適応できます。

score 0 · Accepted Answer

サードパーティのライブラリを使用していますか、それとも自分でプログラミングしていますか? 通常、ラベルはグラウンドトゥルースとして使用されるため、アプローチの効果を確認できます。

たとえば、アルゴが -1 を出力する可能性のある特定のインスタンスを予測しようとしている場合、グラウンドトゥルースラベルは +1 になります。これは、その特定のインスタンスを正常に分類できなかったことを意味します。

score 0 · Accepted Answer

「回帰」は一般的な用語であることに注意してください。誰かが回帰分析を実行すると言うことは、彼らが使用するアルゴリズムや、データセットのすべての性質を必ずしも教えてくれるわけではありません。本当にわかるのは、単一の結果値 (条件付き確率のモデル) を予測するために使用する機能を備えたサンプルのセットがあるということだけです。

ロジスティック回帰と線形回帰の主な違いの 1 つは、前者は通常、カテゴリのバイナリラベル付きサンプルセットでトレーニングされることです。後者は、実数ラベル (ℝ) のサンプルセットでトレーニングされます。

ラベルが実数値である場合は常に、おそらく線形回帰などを使用するか、実際にロジスティック回帰を使用する場合は、実数値ラベルを (たとえば、しきい値やビンを介して) カテゴリラベルに変換することを意味します。ただし、そのような問題の設定を別の設定に変換しようとすると、結果の品質と解釈に大きな違いが生じる可能性があります。

回帰分析も参照してください。

machine-learning - ロジスティック回帰データセットのラベルの意味は何ですか?

3 に答える 3

Related

Reference