問題タブ [imputation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - カテゴリ値を使用して連続値を代入する方法
連続ベクトルに欠損値があります
私は郵便番号を持っています
郵便番号を使用して y を代入したいと思います。私が試してみました
しかし、クロス積を実行できないことを示すエラーが表示されます (rstudio セッションがハングしているため、特定のメッセージを投稿できません)。
マウスまたは別のパッケージでこれを行う方法についてのアイデアはありますか?
編集:dput
データの一部
r - R の MICE を使用してデータを代入した後の分割表
MICEパッケージで R に代入した後、分割表を生成したいと考えています。フィットはリスト内のテーブルを表示しますが、 pool()
それらを使用すると、次のエラーがスローされます:Error in pool(fit) : Object has no coef() method.
何が間違っていますか?
この基本的な例は、エラーを再現します。
pandas - 重要な機能を選択してから代入するか、最初に代入してから重要な機能を選択しますか?
多くの機能 (主にカテゴリ機能(はい/いいえ)) と多くの欠損値を含むデータセットがあります。
次元削減の手法の 1 つは、ターゲット属性に対して慎重に構築された大規模なツリー セットを生成し、各属性の使用統計を使用して、最も有益なフィーチャのサブセットを見つけることです。つまり、基本的に、非常に浅いツリーの大規模なセットを生成できます。各ツリーは、属性の総数のごく一部でトレーニングされます。属性が最良の分割として頻繁に選択される場合、保持する有益な機能である可能性が最も高くなります。
また、欠損値を埋めるためにインピューターを使用しています。
私の疑問は、上記の2つの順序がどうあるべきかです。上記の 2 つ (次元削減と代入) のどちらを最初に行うべきで、その理由は?
r - R パッケージの missForest と Hmisc のパフォーマンスを比較する
欠損値が 50% を超える場合に、欠損値を処理する際の 2 つの R パッケージ、missForest および Hmisc のパフォーマンスを比較しようとしています。
この方法でテストデータを取得しました:
missForest ではmixError()
、代入精度を元データと比較できるメソッドを持っています。
Hmisc にはメソッドがありません。次のようmixError()
に、その強力なaregImpute()
代入を使用しています。
メソッドmissForest_imputed$ximp
を使用できるように、帰属結果を のような形式に変換したいと考えていました。mixError()
問題は、 でaregImpute()
、試してn.impute = 1
もn.impute = 5
、元のデータの虹彩のように各機能に 150 の値を持つことができないことです...そして、各機能の値の数も異なります....
では、欠損値を処理する際に missForest と Hmisc のパフォーマンスを比較する方法はありますか?
python - Python - SkLearn Imputer の使用法
次の質問があります: 欠損値が文字列 でマークされている pandas データフレームがありますna
。その上で Imputer を実行して、欠損値を列の平均値に置き換えたいと考えています。sklearnのドキュメントによると、パラメーターmissing_values
はこれに役立つはずです:
missing_values : 整数または「NaN」、オプション (デフォルト =「NaN」) 欠損値のプレースホルダー。missing_values のすべての出現が補完されます。np.nan としてエンコードされた欠損値には、文字列値「NaN」を使用します。
私の理解では、これは、私が書くと
これは、インピュターがデータフレーム内のすべてをna
列の平均値に置き換えることを意味します。ただし、代わりにエラーが発生します。
私は何を誤解していますか?これは、インピュターが機能する方法ではありませんか?na
では、文字列を平均に置き換えるにはどうすればよいでしょうか。ラムダを使用する必要がありますか?
ありがとうございました!