カテゴリ(または離散)の結果の値を予測する必要がある場合は、ロジスティック回帰を使用します。線形回帰を使用して、入力値が与えられた場合の結果の値も予測すると思います。
では、2つの方法論の違いは何ですか?
確率としての線形回帰出力
線形回帰の出力を確率として使用するのは魅力的ですが、出力が負であり、1より大きい可能性があるのに対し、確率では不可能であるため、これは間違いです。回帰は実際には0未満、または1より大きい確率を生成する可能性があるため、ロジスティック回帰が導入されました。
ソース: http: //gerardnico.com/wiki/data_mining/simple_logistic_regression
結果
線形回帰では、結果(従属変数)は連続です。可能な値は無限にあります。
ロジスティック回帰では、結果(従属変数)には限られた数の可能な値しかありません。
従属変数
ロジスティック回帰は、応答変数が本質的にカテゴリ型である場合に使用されます。たとえば、yes / no、true / false、red / green / blue、1st / 2nd / 3rd/4thなどです。
線形回帰は、応答変数が連続している場合に使用されます。たとえば、体重、身長、時間数などです。
方程式
線形回帰は、Y = mX + Cの形式の方程式を与えます。これは、次数1の方程式を意味します。
ただし、ロジスティック回帰では、Y = e X +e - Xの形式の方程式が得られます。
係数の解釈
線形回帰では、独立変数の係数の解釈は非常に簡単です(つまり、他のすべての変数を一定に保ち、この変数の単位が増えると、従属変数はxxxだけ増減すると予想されます)。
ただし、ロジスティック回帰では、使用するファミリ(二項、ポアソンなど)とリンク(ログ、ロジット、逆ログなど)によって、解釈が異なります。
エラー最小化手法
線形回帰は通常の最小二乗法を使用してエラーを最小化し、可能な限り最良の適合に到達しますが、ロジスティック回帰は最尤法を使用して解に到達します。
線形回帰は通常、データに対するモデルの最小二乗誤差を最小化することで解決されます。したがって、大きな誤差は2乗でペナルティが課せられます。
ロジスティック回帰は正反対です。ロジスティック損失関数を使用すると、大きなエラーが漸近的に一定になるまでペナルティが課せられます。
これが問題である理由を確認するために、カテゴリ{0、1}の結果の線形回帰を検討してください。モデルが結果が38であると予測した場合、真実が1である場合、何も失われていません。線形回帰はその38を削減しようとしますが、ロジスティックは(それほど)2を削減しません。
線形回帰では、結果(従属変数)は連続です。可能な値は無限にあります。ロジスティック回帰では、結果(従属変数)には限られた数の可能な値しかありません。
たとえば、Xに住宅の平方フィート単位の面積が含まれ、Yにそれらの住宅の対応する販売価格が含まれる場合、線形回帰を使用して、住宅のサイズの関数として販売価格を予測できます。可能な販売価格は実際には何もないかもしれませんが、線形回帰モデルが選択されるほど多くの可能な値があります。
代わりに、サイズに基づいて、家が20万ドル以上で売れるかどうかを予測したい場合は、ロジスティック回帰を使用します。可能な出力は、「はい」、家は20万ドル以上で売れるか、「いいえ」、家は売れないかのどちらかです。
前の答えを追加するだけです。
線形回帰
特定の要素X(たとえばf(x))の出力値を予測/推定する問題を解決することを目的としています。予測の結果は、値が正または負の連続関数になります。この場合、通常、多くの例を含む入力データセットと、それぞれの出力値があります。目標は、モデルをこのデータセットに適合させて、新しい異なる/見たことのない要素の出力を予測できるようにすることです。以下は、点のセットに線を当てはめる古典的な例ですが、一般に、線形回帰を使用して、より複雑なモデルを当てはめることができます(より高い多項式次数を使用)。
問題の解決
線形回帰は、2つの異なる方法で解決できます。
ロジスティック回帰
要素を指定してN個のカテゴリに同じものを分類する必要がある場合の分類の問題を解決することを目的としています。典型的な例としては、たとえば、スパムかどうかを分類するためのメールや、それが属するカテゴリ(車、トラック、バンなど)に属する車両の検索があります。これは基本的に、出力は離散値の有限集合です。
問題の解決
ロジスティック回帰の問題は、最急降下法を使用することによってのみ解決できます。一般に、定式化は線形回帰と非常に似ていますが、唯一の違いは、異なる仮説関数の使用法です。線形回帰では、仮説の形式は次のとおりです。
h(x) = theta_0 + theta_1*x_1 + theta_2*x_2 ..
ここで、thetaは適合させようとしているモデルであり、[1、x_1、x_2、..]は入力ベクトルです。ロジスティック回帰では、仮説関数は異なります。
g(x) = 1 / (1 + e^-x)
この関数には優れた特性があり、基本的には、分類中に確率を処理するのに適した範囲[0,1]に任意の値をマップします。たとえば、二項分類の場合、g(X)は正のクラスに属する確率として解釈できます。この場合、通常、異なるクラス間の分離を決定する曲線である決定境界で分離された異なるクラスがあります。以下は、2つのクラスに分けられたデータセットの例です。
簡単に言えば、線形回帰は回帰アルゴリズムであり、可能な連続的で無限の値を上回ります。ロジスティック回帰は、ラベル(0または1)に属する入力の「確率」を出力する二項分類アルゴリズムと見なされます。
基本的な違い:
線形回帰は基本的に回帰モデルであり、関数の非離散的/連続的な出力を提供することを意味します。したがって、このアプローチは価値をもたらします。例:与えられたxはf(x)とは何ですか
たとえば、さまざまな要素のトレーニングセットとトレーニング後のプロパティの価格が与えられた場合、プロパティの価格を決定するために必要な要素を提供できます。
ロジスティック回帰は基本的に二項分類アルゴリズムです。つまり、ここでは関数の目立たない値の出力があります。例:与えられたxについて、f(x)> thresholdの場合は1に分類し、それ以外の場合は0に分類します。
たとえば、トレーニングデータとして脳腫瘍のサイズのセットが与えられた場合、そのサイズを入力として使用して、そのサイズが良性腫瘍か悪性腫瘍かを判断できます。したがって、ここでの出力は、0または1のいずれかで目立たないものになります。
*ここでの関数は基本的に仮説関数です
どちらも解の解法は非常に似ていますが、他の人が言っているように、一方(ロジスティック回帰)はカテゴリ「適合」(Y / Nまたは1/0)を予測するためのもので、もう一方(線形回帰)は予測するためのものです。価値。
したがって、癌のY / N(または確率)があるかどうかを予測する場合は、ロジスティックを使用します。何年生きるか知りたい場合は、線形回帰を使用してください。
回帰は連続変数を意味し、線形はyとxの間に線形関係があることを意味します。Ex=あなたは長年の経験から給与を予測しようとしています。したがって、ここでの給与は独立変数(y)であり、経験年数は従属変数(x)です。y = b0 + b1 * x1
定数b0とb1の最適値を見つけようとしています。これにより、観測データに最適な線が得られます。これは、x=0から非常に大きな値までの連続値を与える直線の方程式です。この線は線形回帰モデルと呼ばれます。
ロジスティック回帰は、分類手法の一種です。用語の回帰に惑わされないでください。ここでは、y=0または1のどちらであるかを予測します。
ここでは、最初に、以下の式からxが与えられた場合にp(y = 1)(y = 1の確率)を見つける必要があります。
確率pは、以下の式によってyに関連付けられます。
Ex =癌になる可能性が50%を超える腫瘍を1として分類し、癌を発症する可能性が50%未満の腫瘍を0として分類することができます。
ここでは、赤い点は0として予測され、緑の点は1として予測されます。
上記のコメントにこれ以上同意することはできません。その上に、次のようないくつかの違いがあります
線形回帰では、残差は正規分布であると想定されています。ロジスティック回帰では、残差は独立している必要がありますが、正規分布ではありません。
線形回帰は、説明変数の値が一定に変化すると、応答変数が一定に変化することを前提としています。応答変数の値が確率を表す場合(ロジスティック回帰)、この仮定は当てはまりません。
GLM(一般化線形モデル)は、従属変数と独立変数の間の線形関係を想定していません。ただし、ロジスティックモデルのリンク関数と独立変数の間には線形関係があると想定しています。
| Basis | Linear | Logistic |
|-----------------------------------------------------------------|--------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------|
| Basic | The data is modelled using a straight line. | The probability of some obtained event is represented as a linear function of a combination of predictor variables. |
| Linear relationship between dependent and independent variables | Is required | Not required |
| The independent variable | Could be correlated with each other. (Specially in multiple linear regression) | Should not be correlated with each other (no multicollinearity exist). |
つまり、線形回帰は連続出力を提供します。つまり、値の範囲の間の任意の値。ロジスティック回帰は離散出力を提供します。つまり、はい/いいえ、0/1種類の出力。
簡単に言えば、線形回帰モデルで、y=1およびy=0の予測のしきい値(たとえば= 0.5)から遠く離れたテストケースがさらに到着した場合。その場合、仮説は変化し、悪化します。したがって、線形回帰モデルは分類問題には使用されません。
もう1つの問題は、分類がy=0およびy=1の場合、h(x)が> 1または<0になる可能性があることです。したがって、ロジスティック回帰は0 <= h(x)<=1でした。
ロジスティック回帰は、はい/いいえ、低/中/高などのカテゴリ出力の予測に使用されます。基本的に、2種類のロジスティック回帰バイナリロジスティック回帰(はい/いいえ、承認/不承認)またはマルチクラスロジスティック回帰(低/中)があります。 /高、0〜9の数字など)
一方、線形回帰は、従属変数(y)が連続である場合です。y = mx + cは単純な線形回帰方程式です(m =傾き、cはy切片です)。多重線形回帰には、複数の独立変数(x1、x2、x3 ...など)があります。
線形回帰では、結果は連続的ですが、ロジスティック回帰では、結果には限られた数の可能な値(離散)しかありません。
例:シナリオでは、xの指定された値は平方フィート単位のプロットのサイズであり、yを予測します。つまり、プロットのレートは線形回帰になります。
代わりに、サイズに基づいて、プロットが300000 Rsを超えて売れるかどうかを予測したい場合は、ロジスティック回帰を使用します。可能な出力は、「はい」、プロットは300000 Rs以上で販売されるか、「いいえ」のいずれかです。
線形回帰の場合、結果は連続的ですが、ロジスティック回帰の場合、結果は離散的です(連続的ではありません)。
線形回帰を実行するには、従属変数と独立変数の間に線形関係が必要です。ただし、ロジスティック回帰を実行するために、従属変数と独立変数の間に線形関係は必要ありません。
線形回帰はデータに直線を当てはめることであり、ロジスティック回帰はデータに曲線を当てはめることです。
線形回帰は機械学習の回帰アルゴリズムであり、ロジスティック回帰は機械学習の分類アルゴリズムです。
線形回帰は、従属変数のガウス(または正規)分布を想定しています。ロジスティック回帰は、従属変数の二項分布を想定しています。
線形回帰とロジスティック回帰の基本的な違いは次のとおりです。 線形回帰は連続値または数値を予測するために使用されますが、カテゴリ別のロジスティック回帰である値を予測する場合に役立ちます。
ロジスティック回帰は、二項分類に使用されます。