- 乗算法 - 各次元のカーネルを計算し、それらを乗算します。
- ベクトルのノルムを計算し、その値のカーネルを計算します。
- は、x 変数と y が統計的に独立していると仮定していますが、これは 2 には当てはまりません。一方、2. は放射対称カーネルです。
2 つの方法のそれぞれは、私のデータに対してどの程度正確に機能しますか?
両方を試して、どちらがより良い結果をもたらすかを確認します(たとえば、どちらがデータの可能性を高めますが、クロス検証を使用するなどしてデータをオーバーフィットしないように注意してください)。
最も基本的な形式では、これは、サンプルを分割し、一方の部分を使用して密度推定関数を計算し (つまり、データ ポイントの周りにカーネルを配置)、もう一方の部分で尤度を評価することを意味します (密度推定関数の値の積テストに使用されるポイントまたは確率の積の対数)、「他の」サンプル (推定値の計算に使用されないサンプル) でどちらがより高い確率の積を与えるかを確認します。
同じ議論 (相互検証) が、カーネルの幅の選択にも適用されます (「スケーリング係数」、カーネルを狭くまたは広くします)。
もちろん、カーネル幅を手動で選択して開始することもできます。カーネル幅の選択が小さすぎると、密度推定値が「とがった」ものになり、大きすぎると、データの重要な特徴が「洗い流され」ます。
Epanechnikov カーネルが正規化された値 > 1 または < -1 に対して 0 を生成することを知っている場合、正規化するには何が必要ですか。
あなたが言及した機能は、正規化とは関係ありません。カーネル自体に正規化された式を使用する必要があります。つまり、カーネルがゼロでない範囲の積分は 1 になる必要があります。ケース 1. の場合、1D カーネルが正規化されている場合 (たとえば3/4*(1-u^2)
onの場合[-1..1]
、2D 積も正規化されます。ケース 2. の場合、2D 積分を計算する必要があります。
カーネルが正規化されていると仮定すると、次のように密度推定を正規化できます。
ここで、N はデータ ポイントの数です。これは正規化されます。つまり、p(x,y)
2D 平面上の の積分は 1 です。
あなたが言及した関数形式はどちらも任意の共分散行列を許可しないことに注意してください。これを回避する 1 つの方法は、最初にデータセットを「相関解除」し (つまり、データセットの共分散行列が単位行列になるように行列変換を適用)、密度推定を実行してから逆変換を適用することです。
また、カーネルの幅が関数として変化する適応カーネル密度推定などの拡張機能がx
ありy
、ある時点で推定値を調整したい場合などがあります。