問題タブ [linear-regression]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
equation - 2 変数線形回帰の方程式
線形回帰関数を持たないプログラミング言語を使用しています。すでに単一の変数線形方程式を実装しています。
y = Ax + B
この Stack Overflow answerと同様のソリューションを使用して、データから A 係数と B 係数を単純に計算しました。
変数が追加されると、この問題が幾何学的に難しくなることはわかっていますが、私たちの目的のために、もう 1 つ追加するだけで済みます。
z = Ax + By + C
x、y、および z の配列を指定して、A、B、および C を解くことができる閉じた形式の方程式、または任意の言語のコードを持っている人はいますか?
gnuplot - Gnuplotを使用した時系列の線形回帰
私はgnuplotの大ファンで、さまざまなプロジェクトで勉強している間ずっとそれを使用していました。
最近、Gnuplotを使用して、減量、運動結果、ガス消費量などの時系列をグラフ化したいと思いました。
したがって、x軸を次のようにスケーリングします
ここで、fit関数を使用して線形フィットを与えたいと思います。私の問題は、x軸が時間に関連している場合、それを機能させることができないということです。
math - 三元線形回帰の 2 つの成分を強制的に正にすることはできますか?
正しい数学用語を使用していない場合は申し訳ありませんが、私が達成しようとしていることを理解していただければ幸いです。
私の問題: 結果 z に対する 2 つのベクトル x と y の値に対して線形回帰 (現在は最小二乗法) を使用しています。これは matlab で行う必要があり、\-operator を使用して回帰を実行しています。私のデータセットには、数千の観測が含まれます (最大で約 50000 まで)。
x 値は 10 ~ 300 の領域 (ほとんどは 60 ~ 100 の間) にあり、y 値は 1 ~ 3 の領域にあります。
私のコードは次のようになります。
出力「パラメータ」は、次の式で使用される 3 つの係数 a0、a1、および a2 です。
(i には添え字が必要です)
これは期待どおりに機能しますが、ベクトル z が負の場合でも、2 つのパラメーター a1 と a2 を常に正の値にする必要があります (これは、もちろん a0 が負になることを意味します)。 (z は常に x と z に正の相関があります)。これは最小二乗法を使用して可能ですか? また、線形回帰の他のアルゴリズムにも対応しています。
testing - 仮説検定で p 値を計算する方法 (線形回帰)
awk
現在、測定データの統計分析を行うスクリプトに取り組んでいます。線形回帰を使用してパラメーター推定値、標準誤差などを取得しています。また、帰無仮説検定 (t 検定) の p 値を計算したいと考えています。
これはこれまでの私のスクリプトですが、p 値を計算する方法はありますか?
c++ - データの「最もクリーンな」サブセット、つまり変動性が最も低いサブセットを見つける方法
いくつかのデータセットで傾向を見つけようとしています。傾向には、最適なラインを見つけることが含まれますが、手順が他のモデルとあまり変わらないと想像する場合 (単に時間がかかる可能性があります)。
考えられるシナリオは 3 つあります。
- すべてのデータが単一の傾向に適合し、変動性が低いすべての良好なデータ
- データのすべてまたはほとんどが非常に変動しやすく、データセット全体を破棄する必要があるすべての不良データ。
- 一部のデータは良好で、残りは破棄する必要がある、部分的に良好なデータ。
極端な変動性を持つデータの正味の割合が高すぎる場合は、セット全体を破棄する必要があります。これは、基本的にこのタイプのデータのみが存在し、不良データの割合がさまざまであることを意味します。
0% 不良 = ケース 1
100% 不良 = ケース 2変動性の低い連続したセクションのみを探しています。つまり、トレンドに合う個別のポイントがいくつかあるかどうかは気にしません。
私が探しているのは、データセットをサブセクション化し、特定のトレンドを検索するスマートな方法です。問題の性質上、全体的な傾向に最も適したセクションを探しているわけではありません。「よりクリーンな」データを含むサブセクションは、全体 (外れ値を含む) とはわずかに異なる傾向線の特性を持つことになることを理解しています。データのこの部分が実際の傾向を最もよく反映しているため、これはまさに私が望むものです.
私は C++ に堪能ですが、コードをオープン ソースおよびクロスプラットフォームにしようとしているので、ISO C++ 標準に固執しています。これは .NET がないことを意味しますが、.NET の例があれば、ISO C++ への変換も手伝っていただければ幸いです。また、JAVA、いくつかのアセンブリ、および Fortran の知識もあります。
データセット自体は巨大ではありませんが、約 1 億 5000 万あるため、総当たり攻撃は最善の方法ではない可能性があります。
前もって感謝します
私はいくつかのことを空中に残したことを理解していますので、明確にさせてください:
- 各データセットは異なる傾向を持つ可能性があり、おそらくそうなるでしょう。つまり、すべてのデータセットで同じ傾向を探しているわけではありません。
- プログラムのユーザーは、希望する適合度を定義します
- プログラム ユーザーは、トレンド フィッティングと見なされる前に、サブセットがどの程度連続していなければならないかを定義します。
- プログラムが拡張されて任意のタイプの適合 (単純な線形ではない) が可能になる場合、ユーザーはどのモデルを適合させるかを定義します。これは優先事項ではなく、上記のクエリが解決された場合、この拡張は確実に比較的些細なこと
- 外れ値は、実験の性質とデータ取得技術の結果として生じます。これらの領域は外れ値を与えることが知られているにもかかわらず、「悪い」セクションからのデータを収集する必要があります。これらの外れ値を破棄しても、データが何らかの傾向に合わせて操作されていることを意味するものではありません (統計の免責事項、へへ)。
java - Java での文字認識
私は、オンライン文字認識 (書かれている文字を認識する) を含む新しいプロジェクトを持っています。私の考えでは、各文字は数学モデルに適合するストローク数によって定義されます。たとえば、「A」は 3 つの直線ストロークで定義できます。「O」は、単一の円形ストロークとして定義できます。線形回帰を使用する理由は、すべてのストロークが常に完全な直線または曲線になるとは限らないためです。線形回帰を使用して、ストロークの「許容範囲」を形成できます。
私の質問は次のとおりです。
これを行うためのより良い/より簡単な方法はありますか?
Java には、線形回帰を実行する関数またはモジュールが組み込まれていますか?
Java よりも簡単にこれを行うことができる言語はありますか?
r - R での線形回帰とグループ化
関数を使用して R で線形回帰を実行したいと考えていlm()
ます。私のデータは、1 つのフィールドが年 (22 年) で、もう 1 つのフィールドが州 (50 州) の年次時系列です。最後に lm 応答のベクトルが得られるように、各状態の回帰を当てはめたいと思います。各状態に対して for ループを実行し、ループ内で回帰を実行し、各回帰の結果をベクトルに追加することを想像できます。ただし、これは R のようには見えません。SAS では「by」ステートメントを実行し、SQL では「group by」を実行します。これを行うRの方法は何ですか?
r - Lattice (またはその他のもの) を使用して、R の lme4 からの回帰結果をプロットする
以前の回答のおかげで、lme4 を使用して回帰を当てはめました。各状態の回帰適合が得られたので、ラティスを使用して各状態の QQ プロットをプロットしたいと思います。また、各状態のエラー プロットを格子形式でプロットしたいと考えています。lme4 回帰の結果を使用して格子プロットを作成するにはどうすればよいですか?
以下は、2 つの状態を使用した単純なサンプルです (ええ、私は良い頭韻が好きです)。オブジェクト フィットから 2 パネルのラティスを作成したいと思います。
regression - 最小二乗平面からの法線ベクトル
ポイントのセットがあり、次の形式で最小二乗解を導き出すことができます。
計算した係数は正しいのですが、この形式の方程式で平面に垂直なベクトルを取得するにはどうすればよいでしょうか? この方程式の A、B、および C 係数を使用するだけでは、テスト データセットを使用した法線ベクトルとして正しくないように見えます。