scipy - 「最適な」カットオフポイント (しきい値) を見つける方法

Question

機械学習用の一連の加重機能があります。機能セットを減らして、重みが非常に大きいか小さいものだけを使用したいと思います。

したがって、並べ替えられた重みの画像の下にあるように、重みが黄色の線より上または下にある機能のみを使用したいと思います。

ソートされた機能; 黄色の線は、目的のカットオフポイント (しきい値) です。

私が探しているのは、ある種の勾配変化検出であるため、最初/最後の勾配係数の増加/減少まですべての機能を破棄できます。

私はこれを自分でコーディングする方法を知っていますが（1次および2次の数値導関数を使用して）、確立された方法に興味があります。おそらく、そのようなものを計算する統計やインデックス、または SciPy から使用できるものはありますか?

編集: 現時点では、正のしきい値1.8*positive.std()と1.8*negative.std()負のしきい値 (高速でシンプル) を使用していますが、これがどれほど堅牢であるかを判断するのに十分な数学者ではありません。でも、そうではないと思います。⍨</p>

ここに画像の説明を入力

score 0 · Accepted Answer

データが（ほぼ）ガウス分布である場合は、標準偏差の倍数を使用するのが賢明です。

裾が重いことが心配な場合は、順序統計に基づいて分析を行うことをお勧めします。

プロットしたので、すべてのデータを並べ替えても構わないと思います。
Nをサンプル内のデータポイントの数とします。
ソートされた値のリストのi番目の値をx[i]とします。
その場合、0.5（x [int（0.8413 * N）]-x [int（0.1587 * N）]）は、外れ値に対してよりロバストな標準偏差の推定値です。stdのこの見積もりは、上記のように使用できます。（上記のマジックナンバーは、それぞれ[mean + 1sigma]および[mean-1sigma]未満のデータの割合です）。
最高の10％と最低の10％を維持することも賢明であるという条件もあります。ソートされたデータが手元にある場合、これらのカットオフは簡単に計算されます。

これらは、質問の内容に基づいた、ややアドホックなアプローチです。あなたがやろうとしていることの一般的な意味は、異常検出（の形）であり、分布の形が中央付近にあるものを定義/推定することに注意すれば、おそらくそれをよりよく行うことができます。機能が異常になったことを確認できるようにします。

scipy - 「最適な」カットオフ ポイント (しきい値) を見つける方法