問題タブ [imputation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
812 参照

r - R欠損値置換関数

欠損値を含むテーブルがあり、欠損値を最も近い 2 つのゼロ以外の値に基づく計算に置き換える関数を作成しようとしています。

例:

についてX = 3は、Tom = 5.1 + (7.4-5.1)/2

についてX = 4は、 Tom = (5.1 + (7.4-5.1)/2) + (7.4-5.1)/2

この機能はすでに存在しますか?そうでない場合は、アドバイスをいただければ幸いです。

0 投票する
3 に答える
45459 参照

python - scikit-learn の Imputer モジュールで欠損値を予測する

scikit-learn の Imputerクラスを使用して、データセットの欠損値を予測するための非常に基本的なプログラムを作成しています。

NumPy 配列を作成し、strategy='mean' で Imputer オブジェクトを作成し、NumPy 配列で fit_transform() を実行しました。

fit_transform() を実行した後に配列を出力すると、「ナン」が残り、予測が得られません。

ここで何が間違っていますか?欠損値を予測するにはどうすればよいですか?

0 投票する
2 に答える
113 参照

r - 欠損値の問題

いくつかの欠落データ (ランダムに欠落) を含むデータセット (data1.csv) があり、完全な観測のみが d2 に保持されるように、このデータセット (d1) からサブセットを作成しています。ftableas.data.frame関数を使用し、各組み合わせのパーセンテージを表す列pを作成しています。

関数ftableas.data.frameは正常に動作しますが、問題は、意味をなさない結果 (d4) にこれらすべての観測結果が表示されることです。私が完了したとき、私はこれを取り除いたと思いました.cases(d1)

したがって、欠損値を取り除き、これらの完全な観測に対してのみ頻度表を作成するのに助けが必要です

0 投票する
1 に答える
2399 参照

r - 「マウス」パッケージの predict() メソッド

パッケージのmice関数を使用して代入戦略を作成したい。問題は、このパッケージに新しいデータのメソッド (またはいとこ) がmice見つからないように見えることです。predict

私はこのようなことをしたい:

上記のコードをエミュレートするアプローチを見つけたいと思います。現在、トレーニングデータセットとテストmiceデータセットに対して別々の操作を個別に実行することは完全に可能ですが、論理的な観点からは正しくないように思われます。すべての情報はトレーニングデータセットにあります。テストデータセットからの観測は、相互に情報を提供するべきではありません。これは、観測を出現時間順に並べることができるデータを扱う場合に特に当てはまります。

考えられるアプローチの 1 つは、テストデータセットから行を追加してデータセットを繰り返しトレーニングし、毎回代入を実行することです。しかし、これは非常に洗練されていないようです。

だからここに質問があります:

mice一般的な方法に似たパッケージの方法はありpredictますか? そうでない場合、可能な回避策は何ですか?

ありがとうございました!

0 投票する
0 に答える
827 参照

r - R におけるカテゴリデータの多重代入

R ソフトウェアで複数の代入を使用して、データ セットを完成させました。

次の例を参照してください。 x3 (最小値 = 0、最大値 = 6); x4 (最小値 = 1、最大値 = 5)。

mice(with )を介してデータ セットを代入した後、各代入データ セット (m=1 から 5) について、これら 2 つの変数 (および)m=5の代入後の新しい比率 (つまり、代入された比率) を生成したいと考えています。次のように、5 つの推定結果を 1 つ (比率と標準誤差) にプールする方法を知っていますか: A3= x%, x%, x%, x%, x%, x% および A4 = y% y%、y%、y%、y% ?A3A4

これに対処する Rコードを知っていますか?

0 投票する
3 に答える
2486 参照

r - 欠落している観測をデータ フレームに挿入する方法

経時的な観察であるデータがあります。残念ながら、治療では時点の大きなギャップがいくつか失われています。それらはNAとしてコード化されておらず、それらからプロットを作成すると明らかになります. 丸で囲まれた欠損データ

私のデータフレームは次のようになります。時点ごとのサンプル数は不規則です。(編集:例を再現できなくてごめんなさい)s

欠落している時点を見つけて n 行を挿入する方法はありますか? 私が考えたのは、治療ごとに各時点の度数表を作成し、行を挿入して、欠落している時点を確認することです。これは、短い時系列では実行できますが、大きな時系列では実行できません。誰かがそれを少し簡単にするのを手伝ってくれるかどうかわかりませんか? ありがとう!

編集: T はシーケンシャルですが、T あたりのデータ数は異なります。そして、各 T に多数の行を挿入したいと思います。編集によって明確になったことを願っています。:)