問題タブ [statistics-bootstrap]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - ブートストラップ出力をファイルに書き込む
私はRを初めて使用し、頻度データの大きなファイルの標準誤差のブートストラップ推定を試みています。ブートストラップは 1 つのデータ ポイントで正常に動作していますが、出力を保存する方法がわかりません。理想的には、標準エラーのみを新しいファイルに書き込みたいと考えています。
これが私がこれまでに試したことです:
r - サブジェクト リストからのブートストラップをブロックする
ブロックブートストラップ手法を効率的に実装して、回帰係数の分布を取得しようとしています。主な概要は以下のとおりです。
私はパネル データ セットを持っており、企業と年がインデックスであると言います。ブートストラップの反復ごとに、n 件の被験者を置換してサンプリングしたいと考えています。このサンプルから、サンプリングされた各被験者のすべての観測値のスタックである新しいデータ フレームを構築しrbind()
、回帰を実行して、係数を引き出す必要があります。一連の反復、たとえば 100 回繰り返します。
- 各企業は複数回選択される可能性があるため、各反復のデータ セットにそのデータを複数回含める必要があります。
- 以下のように、ループとサブセットのアプローチを使用すると、計算が面倒に思えます。
- 私の実際のデータ フレーム n では、反復回数が以下の例よりもはるかに大きいことに注意してください。
split()
私の最初の考えは、コマンドを使用して、既存のデータ フレームをサブジェクトごとにリストに分割することです。そこから、
新しいリストを取得するには、おそらくパッケージから実装quickdf
しplyr
て新しいデータ フレームを構築します。
遅いコードの例:
linux - ビッグデータ読み取りサブサンプル R
この度はお読みいただき、誠にありがとうございました。
私は、csv形式の600万レコードと3000列(ほとんどがカテゴリデータ)の超サイズの30GBファイルを持っています。多項回帰のサブサンプルをブートストラップしたいのですが、マシンに 64 GB の RAM があり、そのスワップ ファイルの 2 倍であっても、プロセスが非常に遅くなり停止します。
R でサブサンプル インデックスを生成し、sed または awk を使用してシステム コマンドに入力することを考えていますが、これを行う方法がわかりません。R コマンドだけを使用してこれを行うクリーンな方法を誰かが知っていれば、本当に感謝しています。
1 つの問題は、サブサンプルの完全な観測を選択する必要があることです。つまり、特定の多項観測のすべての行が必要です。観測から観測までの長さが同じではありません。glmnet を使用してから、多項式の場合の近似値を取得するためにいくつかの凝った変換を使用する予定です。もう1つのポイントは、メモリ制限に合わせてサンプルサイズを選択する方法がわからないことです。
あなたの考えを大いに評価してください。
依田
r - 時系列シミュレーションの高速化(ブートストラップ用)
非標準の依存関係を持つ時系列でブートストラップを実行する必要があります。そのためには、時間ごとに調整して時系列をシミュレートする関数を作成する必要があります。
このコードを実行して、取得した実行時間を測定すると、
ブートストラップを構築するためにこのコードを統合するので、これは私にとってわずかな問題です。これは、ここでかかる時間は、各ステップで約100倍されることを意味します。そして、私はこれを数千回更新しています。つまり、1回の実行には数時間(数日)かかります。
このコードを高速化する方法はありますか?
敬具、
マシュー
r - Rメディエーション分析 -- ブートストラップ
mediate パッケージを使用して、R でメディエーション分析を実行しようとしています。これを行う方法に関するドキュメントを見て、R が提供する例を読みました (つまり、既に "example(mediate)" を実行しました)。それにもかかわらず、最も単純なメディエーションを実行することはできません。理想的には、Preacher & Hayes (2004) のようなブートストラップ手順を実行したいと考えています。
実行しようとしているコードは次のとおりです。
desirdata
データセットは、治療はage
、結果はzpers1
、メディエータは "zdesir1" と呼ばれることに注意してください。これを実行すると、次のエラーが表示されます。
変数(具体的には治療変数)が存在しないと主張しているようです。ただし、names(desirdata) を実行すると、変数が存在し、他のすべての変数と同様に正しく名前が付けられていることが示されます。最初の 2 つのモデル (model.m と model.y) は正常に実行され、出力は期待どおりに見えます。実行できないのは仲介モデルだけです。私が知る限り、タイプミスはしておらず、これを 100 回チェックしました。
考え?
r - Rでデミング回帰推定をブートストラップするにはどうすればよいですか?
私は、2 つの測定手法を比較するための変数内誤差 (デミング) 回帰を含むコンサルティング問題に取り組んでいます。詳細は履歴書の質問に記載されています。ここにリンクがあります。Bill Huber は、Deming の回帰問題を解決するmcr
パッケージを教えてくれました。cran
一部のデータ ポイントが相関している可能性があるため、ブートストラップ補正を行うように依頼されました。
このサイトの専門家はR
、デミング回帰をブートストラップ手順に組み込む方法を教えてもらえますか?
r - Rでデミング回帰を行う。時間に敏感
RをWindowsマシンにロードし、ブートストラップルーチンとデミング回帰用のmcrルーチンを含めました。非常に基本的な質問。
ブートストラップサンプリングルーチン内にデミング回帰を組み込むにはどうすればよいですか?
データをRに入力するにはどうすればよいですか?データはExcelスプレッドシートにあります。
簡単な方法を教えてください。可能であれば、今日これをやろうとしています!
r - ブートストラップされたnlsが不良データに適合している間の特異勾配エラー
独立変数と従属変数のセットを含むデータセットがあります。ブートストラップされた非線形最小二乗法を使用して、独立変数の各セットに関数を適合させたいと思います。場合によっては、独立変数は「高品質」です。つまり、関数に適度に適合します。他の場合、彼らは騒々しいです。
いずれの場合も、nls()
パラメーターの推定値を取得するために使用できます。ただし、データにノイズが多い場合、ブートストラップはエラーをスローしますError in nls(...) : singular gradient
。ノイズの多いデータへのフィッティングが失敗する理由は理解できnls
ますが、たとえば、反復回数が多すぎると収束に失敗するためですが、それが特異な勾配エラーである理由と、品質の低いリサンプリングされたデータセットしか取得できない理由はわかりません。
コード:
nls
はデータを完全に適合させることができます(場合によっては、のようa
に、モデルがデータに適合しているとは思えませんが。
ブートストラップは、高品質のデータに対して正常に機能します。
しかし、質の悪いデータではありません
このエラーの原因は何ですか?plyr
そして、多くのブートストラップシミュレーションを同時に実行するために使用したいので、どうすればよいですか?
r - ログ応答率のブートストラップ信頼区間と平均値
治療の効果量を調べるために、95%のCIと測定値の平均値をブートストラップしようとしています。私が使用したい方法は、LnRRまたは対数応答比(1、2、3 )と呼ばれます。単純に。で計算されます。95%のCIが0と重なっていない場合、自然に効果が発生する確率は95%を超えます。負のLnRRは、治療が負の効果をもたらすことを意味します。Log(Response to treatment / Response to control)
ブートパッケージのブートストラップ機能はちょっと混乱していて、95%のCIと平均値を計算するのに苦労しています。私は以下を試しました:
私は明らかに何か間違ったことをしています。このタイプの関数の信頼区間(boot.ci)をブートストラップするにはどうすればよいですか?答えはここにあると思いますが、どういうわけか、どうしたらいいのかわかりません。
r - 双方向の大規模データセットのブートストラップ
重複の可能性:
大規模なデータ セットをブートストラップする
複数の列変数と行変数を含む大規模な双方向データ セットをブートストラップしたいと考えています。行変数と列変数の両方を保持する必要があります。結果は、各行変数のすべての列変数のブートストラップを含むリストになります。質問に答えるために必要なコードを提供していますが、エレガントではないと思います。より良い、より速いコードをいただければ幸いです。以下は、双方向データセットの単純化された再作成です。
二元行列データを作成します。
文字列を charDataDiff マトリックスに追加します。
列名を追加します。
行変数「patchId」を基準にデータを区切ります。これにより、変数ごとに 1 つずつ、合計 3 つのリストが作成されます。
patchSpectrum をサンプリングする関数 sampleBoot を作成しました
リスト「k」が私の質問に答えます。ただし、大規模なデータ セットと大規模なブートストラップの場合、私のコードは遅いと思います。3 つの行変数に対して 10 回の反復のみをブートストラップしています。より速く、より洗練されたコードが評価されます。