問題タブ [imputation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - Factors と chr の場合に Na を論理値に置き換える (KNN 代入)
誰かがこの KNN 代入がどのように機能し、Na と空の因子/文字を同様の記録に基づいた値で埋めるためにどのように使用されるかを説明できれば、非常に助かります。たとえば、次のようになります。
データセットに多くの欠損値があることがわかるように、文字と因子の論理値をどのように代入できますか。zoo パッケージでは数値を代入できることを理解しています。
助けてくれてありがとう。
r - R の Predict() 関数。従属変数の予測に使用する方法
関数predict()の使用方法について質問があります。
n 行 10 列のデータセットがあります。最初の列は従属変数で、他の変数は独立変数です。最初の変数、つまり x1 に 50% の欠損データがあり、他の変数は完全に観測されています。次のモデルの対応するケースと回帰係数を使用して、x1 (欠落部分) を予測したいと思います。
これが私のコードです:
それらは異なるはずですが、実際にはまったく同じです。誰かが私を助けて、コードで何がうまくいかないのか教えてもらえますか? Bグループには異なる観測を使用しているため、x1_obs_hatとx1_mis_hatは異なるはずです..
ありがとうございました :)
python - Python:CSVファイルの欠損値を代入する方法は?
Python で分析する必要がある CSV データがあります。データにはいくつかの欠損値があります。データのサンプルは次のとおりです。
サンプル
データには と が欠落してOB_DATE
おりMETO_STMP_TIME
、これらのフィールドに欠落している値を代入したいと考えています。
ここでの基本的な質問は次のとおりです。
- 欠損値の代入とは何ですか?また、それを行う方法は何ですか?
私はこれについて多くのことをグーグルで検索しましたが、代入の概念が明確ではありませんでした。
- 外部ライブラリを使用せずに Python でそれを行うにはどうすればよいでしょうか?
外部ライブラリが使用されている場合は問題ありませんが、外部ライブラリなしで実行できる方法です。
r - R - データフレーム内の行をマージして、多数の識別子を指定して NA を埋めます
アメリカの 50 州すべての 50 大都市での殺人件数を示す 5 年間のデータを含むデータフレームがあるとします。データフレームには、その都市の人口と所有する銃の数も含まれています。ただし、各行には次の 1 つしかありませんpopulation, homicides or guns
(df
以下の例を参照)。
この結果のデータフレームは、必要以上に 25,000 行長くなります。これは、一意の組み合わせを表す各行に 1 つではなくデータstate, city and year
が含まれる可能性があるためです。population, homicide and guns
つまり、次のようになります。
から始めてdf
、どのようにデータ行をマージして、組み合わせpopulation, guns and homicides
ごとに 1 つの行を作成できますか? state, city, year
したがって、 df.ideal になります
悲しいことに、このソリューションはバランスの取れていないデータフレームでも機能する必要があります。理想的な世界では、値が NA 以外のものを置き換えたときに警告が表示されれば素晴らしいでしょう。
sas - SAS Enterprise Guide、欠損変数のさまざまな処理
ESS データセットを使用していますが、SAS Enterprise Guide の欠損値の問題をどのように処理すればよいかわかりません。私たちの従属変数は「主観的な幸福」であり、大量の制御変数を含めることを目指しています。したがって、多くの欠損値を含むデータセットがある状況になります。
「リストごとの削除」は使いたくありません。代わりに、回答者の回答に応じて、「無回答」、「該当なし」、「拒否」、「わからない」など、さまざまな方法でさまざまな欠落を扱いたいと考えています。たとえば、該当しないものをペアごとに削除する予定ですが、質問によっては、他の回答の平均値などを使用したい場合があります (回答者の回答が MCAR、MAR、 NMAR)。
主な質問は次のとおりです。
- 現在、欠落している変数はデータ セット内でさまざまな方法でマークされています (99、77、999、88 など)。SAS Enterprise Guide に進む前に、これらの値を Excel で置き換える必要がありますか? はいの場合 - それらは異なる方法で扱われることになっているため、どのように交換するのが最善ですか?
- さまざまな欠落をさまざまな方法で処理するように SAS Enterprise Guide に指示するにはどうすればよいでしょうか?
- ダミー変数を使用して収入などの拒否をマークする場合、これらを最終的な回帰にどのように含めますか?
私たちはこれについて読もうとしましたが、少し混乱しているので、助けていただければ幸いです:)
r - R における多重代入 (MICE) の単純な制限/制約
R のMICEパッケージを使用して、一連の変数に対して複数の代入を実行したいと考えています。
の最小値gcs
は3で、最大値は15で、小数ではない可能性があります。MICEでこれらの制約を設定するにはどうすればよいですか? にも同じことが言えますが、これには下限が0hf
しかありません。