3

2D プロットにたくさんの点があります。赤い点は私の実験が安定しているときを示し、黒い点は不安定なときを示します。2 つの領域は、この両対数プロットの線で明確に分離されています。最適な「分離線」、つまり 2 つの領域を分離する基準を与え、この基準で最小の誤差を持つ線を見つけたいと思います。さまざまな本やオンラインで検索しましたが、この問題を解決する方法は見つかりませんでした。何か知っているツールはありますか?まず、エラーを定義する必要があります。私の頭に浮かぶことの 1 つは、不明な行が ax+by+c=0 の場合、各ポイント (x0,y0) に対して次のようなエラー関数を定義することです。

E=0 if point lays on the correct side of the line.
E= distance(a*x+b*y+c=0,(x0,y0)) = |a*x0+b*y0+c|/sqrt(a^2+b^2)   if the point
   lies on the wrong side.

誤差の合計を最小化します。ただし、しきい値があるため単純ではありません。この問題を解決するアプローチの参照またはリンクについて知っている場合は、それをいただければ幸いです。乾杯 A.

ここに画像の説明を入力

4

1 に答える 1

3

いくつかの参照: ウィキペディアの 線形分類器サポート ベクター マシン(SVM)、
scikit-learn SVM、3 つのクラスの例、
SOでの質問/タグ付き/分類、 stats.stackexchange
での 3000 以上の質問/タグ付き/分類、 400 以上の質問/タグ付き/datascience.stackexchange の分類

2 クラスの問題では、次の手順を実行します。

  1. 中点を見つける赤い点の Rmid、黒の Bmid、ロットの Mid

  2. Rmid から Bmid に線 L を引く

  3. 線 L に垂直な、Mid を通る (超) 平面は、必要なものです: 線形分類器です。
    または、距離 |x - Rmid| を比較することもできます。および |x - Bmid|: x を Rmid 赤に近づけ、Bmid 黒に近づけます。

しかし、もっと言うべきことがあります。すべてのデータ ポイントを線 L に射影すると、1 次元の問題が得られます。

rrrrrrrrrrbrrrrrrrrbbrrr | rrbbbbbbbbbbbbbbb

データを見て理解を深めるために、この線上のすべてのポイントをプロットすることをお勧めします。
(たとえば 5 次元または 10 次元の点群の場合、2 次元または 3 次元のスライスをさまざまな角度から見ると、楽しくて有益な場合があります。)

各カット、「|」上記では、4 つの数値の「混同行列」が得られます。

R-correct   R-called-B  e.g.  490   10
B-called-R  B-correct          50  450

これにより、赤/黒の予測のエラー率の大まかなアイデアが得られます。それを印刷し、議論してください。
最適なカットはコストによって異なります。たとえば、R を B と呼ぶと、B を R と呼ぶよりも 10 倍または 100 倍悪い場合などです。

赤い点と黒い点の散乱/共分散が異なる場合は、 フィッシャーの線形判別式を参照してください。

(「SVM」は、超平面/超曲面を「適切に」分離するためのメソッドのクラスの専門用語です。「マシン」はありません。)

于 2013-06-11T10:52:28.600 に答える