python - Python - より堅牢な線形フィットを実行しようとしています

Question

線形関数を当てはめたこのデータがあり、その当てはめによって他の作業が決まります (気にしないで、重要ではありません)。私はを使用してnumpy.polyfitいます。データと適合度だけを含めると、他には何もありません。次のプロットが生成されます。

さて、適合は問題ありませんが、一般的なコンセンサスは、最適適合の線がその上の赤いデータポイントによって歪められているということです。実際には、そのすぐ下のデータに適合する必要があります。青い点の塊）。そこで、への呼び出しに重み付けを追加しようとしましたがpolyfit、1/sqrt(y-values) の任意の重み付けを選択したため、基本的に小さい y 値がより有利に重み付けされます。これにより、以下が得られました。

どちらの方が確かに優れていますが、まだ満足していません。ラインが低すぎるように見えるからです。私は理想的には中間点が欲しいのですが、実際に任意の重み付けを選択したので、一般的に Python を使用してより堅牢な適合を実行する方法があるかどうか、またはこれを使用して実行できるかどうか疑問に思っていましたpolyfit。動作する場合は別のパッケージを使用しても問題ありません。

score 0 · Accepted Answer

この質問は、プログラミングや python とはあまり関係がなく、統計や線形代数とは関係ありません。

ベストフィットラインまたはベストフィット 2 次曲線の誤差が少ない方の誤差の違いを確認してみてください。しかし、その多くはコンテキストに関連しています。

500 個のデータポイントがある場合、500 次の多項式を見つけて、データセットをゼロエラーでモデル化できます。ただし、データポイントに重みを付ける場合は、データにとって意味のあるものにする必要があります。

最適なラインを「正しく見える」ようにしたい場合は、前戯をカットして、必要な場所に引きます。意味を成したい場合は、数学者に意味のある式を求めて、それに従ってください。

score 0 · Accepted Answer

statsmodels には、このような場合にうまく機能するさまざまな重み関数を備えた堅牢な線形推定器 RLM があります。

http://www.statsmodels.org/dev/generated/statsmodels.robust.robust_linear_model.RLM.html http://www.statsmodels.org/dev/examples/index.html#robust

これらは、"y 外れ値" に対してロバストな M 推定量ですが、影響力のある外れ値リグレッサーである "x 外れ値" に対してはロバストではありません。

python - Python - より堅牢な線形フィットを実行しようとしています

2 に答える 2

Related

Reference