問題タブ [regression]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
testing - 回帰テストと展開戦略
展開戦略についてアドバイスをお願いします。開発チームが広範なフレームワークを作成し、多く(20〜30)のアプリケーションがそれを使用し、ビジネスが少なくとも30日ごとにアプリケーションの更新を希望する場合、最適な展開戦略は何ですか?
私が尋ねる理由は、アプリケーションの90%が変更されない場合、変更を毎月展開するアジャイルアプローチを使用することには多くの無駄(およびリスク)があるように思われるからです。これが意味するのは、フレームワークはその月の間に変更される可能性があり、いくつかのアプリケーションも変更される可能性があるということです。フレームワークが変更されたため、すべてのアプリケーションを回帰テストする必要があります。たとえば、1年の間に10個のアプリケーションがまったく変更されない場合、機能の変更やホットフィックスがない場合、それらの10個のアプリケーションは毎月回帰テストされます。ビジネスが毎月更新をローリングしているという理由だけで、それらをテストする必要がありました。
そして、それに伴うリスク...ミッションクリティカルなアプリケーションが展開され、テストに数週間かかり、複数の部門がテストする場合、このアプリケーションを常に回帰テストする必要があると予想するのは現実的ですか?
1つのオプションは、フレームワークの更新に下位互換性を持たせることです。これは、アプリケーションがコードを変更する必要がないことを意味しますが、基盤となるフレームワークが変更されたため、アプリケーションをテストする必要があります。そして、それに伴うリスクは大きいです。絶えず変化するフレームワーク(およびこのフレームワークの展開)は、ミッションクリティカルなアプリが同じコードベースを長期間楽しむことができないことを意味します。
これらのアプリケーションは同じデータベースを共有するため、継続的なテストが必要です。私はTDDと自動テストを知っていますが、現時点では存在しません。
何かアドバイス?
machine-learning - 分類でも回帰でもないものを表す正しい用語は何ですか?
基本的に分類の問題があるとしましょう。つまり、いくつかの入力といくつかの可能な出力クラスが与えられた場合、与えられた入力の正しいクラスを見つけます。ニューラル ネットワークと決定木は、このような問題を解決するために使用できるアルゴリズムの一部です。ただし、これらのアルゴリズムは通常、結果の分類のみを出力します。
では、1 つの分類だけに関心があるのではなく、入力が各クラスに属する事後確率に関心があるとしたらどうでしょう。IE、「この入力はクラス A に属します」という回答の代わりに、「この入力はクラス A に 80%、クラス B に 15%、クラス C に 5% 属します」という回答が必要です。
私の質問は、これらの事後確率を取得する方法ではなく、それらを見つけるプロセスを説明する正しい用語についてです。これを回帰と呼ぶこともできます。現在、実数値の数を推定しようとしているためです。しかし、それが正しいかどうかはよくわかりません。正確な分類でもなく、両者の中間に位置するものだと思います。
一部の入力が可能な出力クラスのそれぞれに属するクラスの条件付き事後確率を見つけるプロセスを説明する言葉はありますか?
PSこの質問がプログラミングの質問として十分かどうかは正確にはわかりませんが、機械学習に関するものであり、機械学習には一般的にかなりの量のプログラミングが必要なので、試してみましょう.
r - 回帰モデルにおけるスクリーニング (多重) 共線性
これが「質問と回答」の質問にならないことを願っています...ここに行きます:(多重)共線性は、回帰モデルの予測因子間の非常に高い相関を指します。それらを治す方法...まあ、共線性を「治す」必要がない場合もあります。これは、回帰モデル自体には影響せず、個々の予測子の効果の解釈に影響するためです。
共線性を特定する 1 つの方法は、各予測子を従属変数として、他の予測子を独立変数として配置し、R 2を決定することです。R 2 が .9 (または .95) より大きい場合、予測子は冗長であると見なすことができます。これは 1 つの「方法」です。他のアプローチはどうでしょうか。モデルから予測因子を除外したり、b 係数の変化を監視したりするなど、時間がかかるものもありますが、それらは著しく異なるはずです。
もちろん、分析の特定のコンテキスト/目標を常に心に留めておく必要があります...時には、唯一の救済策は研究を繰り返すことですが、現在、(多重)共線性がある場合に冗長な予測因子をスクリーニングするさまざまな方法に興味があります回帰モデルで発生します。
r - スパース特徴行列を使用したRの大規模回帰
多くの(たとえば100k)機能を使用してRで大規模な回帰(線形/ロジスティック)を実行したいと思います。各例は機能空間で比較的まばらです。たとえば、例ごとに最大1,000の非ゼロ機能があります。
SparseMパッケージslm
でこれを行う必要があるようですが、このsparseMatrix
形式から使いやすい形式に変換するのに問題がslm
あります。
y
ラベルとsparseMatrix
機能の数値ベクトルX
\in{0,1}があります。やってみると
次のエラーが発生します。
おそらく、の代わりにオブジェクトslm
が必要なためです。SparseM
sparseMatrix
SparseM
a)オブジェクトに直接データを入力する、またはb)asparseMatrix
をオブジェクトに変換する簡単な方法はありSparseM
ますか?それとも、これを行うためのより良い/より簡単な方法がありますか?
X
(とを使用して線形回帰のソリューションを明示的にコーディングできると思いますが、機能y
していると便利ですslm
。)
php - PHP推定関数
数値の配列に基づいて($ numbersとして)数値系列の値$xを計算しようとしています。
元:
最も統計的に正確な方法は何でしょうか?
r - R のロジスティック回帰 (SAS のような出力)
SASの代わりにAnalyticsにRが採用されている場合、グループ間でかなり一般的だと思う問題が手元にあります。ユーザーは、SAS で慣れ親しんだ R のロジスティック回帰の結果を取得したいと考えています。
この目的のために、SAS が報告するさまざまなメトリックを抽出するための多くの関数を含む R の Design パッケージを提案することができました。
他のパッケージに関する提案、またはロジスティック回帰の SAS 出力の一部を複製するサンプル コードがあれば、喜んでお知らせします。
要件の一部は次のとおりです。
ロジスティック回帰の段階的変数選択
因子変数の基準水準を選択する
Hosmer-Lemeshow 統計
一致と不一致
タウ C 統計
ご提案いただきありがとうございます。
r - Stata の xtnbreg 用の R 関数はありますか?
レプリケーションで負の二項回帰を実行するために Stata を使用しています。Stata がこれをどのように行うのかについては、内部で何が行われているのかわかりませんが、同じことを行う R 関数/パッケージがあるかどうか知りたいですか? コードを見ることができるので、R を使用すると、これがどのように機能するかをよりよく理解できます。
r - 各共変量を明示的に宣言せずにglmを使用してRで式を指定する
それぞれを完全に指定せずに、特定の変数を glm 回帰に強制したいと思います。私の実際のデータセットには、約 200 個の変数があります。これまでのオンライン検索では、このサンプルを見つけることができませんでした。
例 (3 つの変数のみ):
すべての主要な用語を含めたい場合、これには簡単なショートカットがあります。
しかし、すべての主要な用語 (W1、W2、および A) と W2^2 を含めたいとします。
これにはショートカットがありますか?
[公開前に自分自身を編集:] これは機能します!glm(formula = Y ~ . + I(W2^2), family = binomial, data = samp)
さて、これはどうですか!
主要な用語変数を 1 つ省略し、2 つの主要な用語 (A、W2) と W2^2 および W2^2:A のみを含めたいと考えています。
明らかに、変数がわずかしかない場合は近道は必要ありませんが、私は高次元のデータを扱っています。現在のデータセットには 200 個の変数しかありませんが、他のいくつかの変数には何千もの変数があります。
r - p値を使用して有意でないp値を持つ変数を削除するステップワイズ回帰
選択基準としてp値を使用して、段階的な線形回帰を実行したいと思います。たとえば、各ステップで、最も高い、つまり最も重要でないp値を持つ変数を削除し、すべての値が何らかのしきい値alphaによって有意に定義されたときに停止します。
代わりにAIC(コマンドstepやstepAICなど)またはその他の基準を使用する必要があることを完全に認識していますが、上司は統計を把握しておらず、p値の使用を主張しています。
必要に応じて、自分のルーチンをプログラムすることもできますが、これの実装済みバージョンがあるかどうか疑問に思っています。
regression - 趣味のプロジェクトに必要な回帰式
私は車に基づいた趣味のウェブサイトを持っています。
価格、走行距離、年式の 3 つの変数を使用して、車の販売データを入手できます。十分なデータを収集した場合、年齢と走行距離を入力して、抽出された価格を返すことは可能ですか? いずれの場合も同じ車種を想定しています。
ありがとう。ところで、私は数学者ではなくプログラマーなので、モデルなどを知っているとは思わないでください.