問題タブ [imputation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pandas:null値をgroupbyの平均で埋める方法は?
次のようないくつかの欠落データがあるデータセットがあります。
モデルでデータを使用するには、null を入力する必要があります。カテゴリが初めて発生するたびに、NULL になります。私がやりたいのは、カテゴリのようなケースでA
、B
複数の値があり、ヌルをそのカテゴリの平均に置き換えることです。また、1 回しか出現しないカテゴリC
については、残りのデータの平均を入力するだけです。
すべての行の平均を取得するような場合にこれを簡単に実行できることはわかっていC
ますが、A と B のカテゴリごとの手段を実行してヌルを置き換えようとして立ち往生しています。
最終的な df をこのようにする必要があります
r - レートが特定の値に等しい時間を見つける方法は?
次のデータセットがあります。
rate1 は時間依存関数で、数日かけて値 40 に近づく傾向があります。
rate1 が 40 になる日付を知りたいです。
私が必要とすることを行う 1 つの可能性は、rate1 を密集して設定し、目標値 (40) を減算することです。ポイントがゼロに近づくほど、目標値に近づきます。また、小さな「ノイズ」バッファを含めて、ゼロの範囲内のすべてのポイントを受け入れます。
Rで40に等しいrate1の時間値を見積もるにはどうすればよいですか? また、私が使用しているものよりもRに適切な方法があるかどうかを提案してください。すべての提案を歓迎します。
gaussian - 欠損データを代入するためのガウス混合モデルによる潜在変数
私は現在、ガウス混合モデルを介して欠落データを代入しようとしています。私の参照論文はここからです: http://mlg.eng.cam.ac.uk/zoubin/papers/nips93.pdf
私は現在、2 つのガウス成分を持つ二変量データセットに注目しています。これは、各ガウス コンポーネントの重みを定義するコードです。
これは、欠損値を定義するための私のコードです:
私の制約は、特定のコンポーネントに基づいて「待機中」の変数に欠落しているデータを代入する方法です。このコードは、条件付き平均代入を使用して欠損データを代入する最初の試みです。私は知っています、それは間違いなく間違った方法です。結果は特定のコンポーネントに嘘をつくことはなく、異常値を生成します。
ガウス混合モデルを介して潜在/非表示変数を処理できる代入手法を改善する方法について、誰かがアドバイスをいただければ幸いです。前もって感謝します
machine-learning - 機械学習データの代入時に疑問符('?')を NaN に変換するエラー
すべての欠落データ (「?」で示される) をNaN
代入し、代入ツールを使用してsklearn
それらを平均値に平均化しようとしています。私の問題を再現できるように、以下のコードを含めました。PyCharm を IDE、Mac OS X、および Py 2.7.12 で anaconda として使用します。
これは私のコードです:
そして、ここに私のエラーメッセージがあります
打ちのめされた初心者QAQを助けてください...
r - 代入バイナリ変数を丸める R 関数
帰属されたバイナリ変数を丸める信頼できる方法については、継続的な議論があります。それでも、Bernaards と同僚 (2007) によって開発されたいわゆる適応丸め手順は、現在最も広く受け入れられているソリューションです。
採用丸め手順には、二項分布への正規近似が含まれます。つまり、バイナリ変数の代入値には、以下の式によって導出されるしきい値に基づいて、0 または 1 のいずれかの値が割り当てられます。x は、代入されたバイナリ変数の平均です。
私の知る限りでは、代入に関する主要な R パッケージ (Amelia やマウスなど) には、バイナリ変数の丸めに役立つ関数がまだ含まれていません。この欠点は、従属変数が 2 進数でコード化されていることを考えると、ロジスティック回帰分析で帰属値を使用しようとする研究者にとって特に困難です。
したがって、上記の Bernaards 式の R 関数を記述することは理にかなっています。
この式を使用すると、たとえば平均が .623 の代入バイナリ変数のしきい値を計算するのがはるかに簡単になります。
しきい値を計算した後、通常の次のステップは、変数 x の代入値を丸めることです。
私の質問は、上記の関数を拡張してそのタスクも含めるにはどうすればよいですか?
つまり、上記のすべてを R で 3 行のコードで実行できます。
特に大規模なデータセットを扱う場合、各バイナリ変数に対して同じプロセスを繰り返すと時間がかかるため、関数に上記の再コーディング/丸めが含まれていると最適です。このような関数を使用すると、代入後に追加のコード行 (以下のように) を実行するだけで、分析を続行できます。
r - 欠損値の代入の平均化
いくつか質問がありましたが、何かが欠けているか、代入プロセス/ロジックを理解していない限り、ドキュメントについて何も見つけることができませんでした。
基本的に最も重要なのは、「帰属」値が異なる場合があるため、数値の場合は平均を、カテゴリ値の場合はモードを取りたいということです。
「complete(miced_model, 1)」を示すすべての例。マウス モデルを 5 回または 10 回の異なる反復で実行している場合、1 を選択するだけでは意味がありません。それらすべての平均が必要です。
誰でもこれを行う方法を教えてもらえますか?
ありがとう!!