ナイーブベイズのナイーブとは何ですか?
5 に答える
実際、ウィキペディアには非常に良い例があります。
簡単に言えば、単純ベイズ分類器は、クラス変数が与えられた場合、クラスの特定の機能の存在 (または不在) が他の機能の存在 (または不在) とは無関係であると想定します。たとえば、果物が赤く、丸く、直径が約 4 インチである場合、果物はリンゴであると見なすことができます。これらの特徴が相互に依存している場合や、他の特徴の存在に依存している場合でも、単純ベイズ分類器はすべてを考慮します。これらのプロパティは、この果物がリンゴである確率に独立して寄与します。
基本的に、それは正しいと判明するかもしれないし、しないかもしれない仮定をするので、「ナイーブ」です。
データが特徴ベクトル X = {x1, x2, ... x10} とクラス ラベル y = {y1, y2, .. y5} で構成されている場合、ベイズ分類器は正しいクラス ラベルを最大化するクラス ラベルとして識別します。次の式:
P(y|X) = P(X|y) * P(y) = P(x1,x2,...,x10|y) * P(y)
今のところ、それはまだ素朴ではありません。ただし、P(x1,x2,...,x10|y) を計算するのは難しいため、特徴が独立していると仮定します。これをナイーブ仮定と呼びます。したがって、代わりに次の式になります。 :
P(y|X) = P(x1|y) * P(x2|y) * ... * P(x10|y) * P(y)
すべての属性が互いに独立していると仮定するため、ナイーブと呼ばれます。多くの現実世界の状況ではこれが当てはまらないため、この仮定がナイーブと呼ばれる理由です。それにもかかわらず、分類器は現実世界の多くの状況で非常にうまく機能し、特定の場合 (すべてではありません) ではニュートラル ネットワークや SVM に匹敵するパフォーマンスを発揮します。
結合分布が見つかった場合の分類の問題は、それがトレーニング データを反映しているだけであり、計算も非常に難しいことです。したがって、より有用に一般化するものが必要です。
単純なモデルは、各属性が他の属性から独立して分散されることを強く一般化します。
属性間の依存関係をあまり気にしないのに非常に役立ちます。
ここでは、単純ベイズ分類器の実用的な説明の優れたドキュメントを共有しています。これにより、非常に良いアイデアが得られます。