問題タブ [imputation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
imputation - Pythonで要素を取得するには?
そのようなライブラリと関数を使用して実装する方法については、まったくわかりません。誰でも私にアイデアを与えることができます。関数の名前やアイデア、または役立つ Web サイトの URL だけでも構いません。ありがとう!
違うと思います。
python - 欠損値のグループ代入ごとのパンダ
パンダの各指標について、このような国ごとの代入をどのように達成できますか?
グループごとに欠損値を代入したい
np.min
インジケーターKPIごとに非A状態を取得する必要があります- no-ISO-state
np.mean
は指標ごとの KPIを取得する必要があります 値が欠落している状態については、平均ごとに代入したいと思い
indicatorKPI
ます。ここで、これはセルビアの欠損値を代入することを意味しますmydf = pd.DataFrame({'Country':['no-A-state','no-ISO-state','germany','serbia', 'austria', 'germany','serbia', 'austria' ',], 'indicatorKPI':[np.nan,np.nan,'SP.DYN.LE00.IN','NY.GDP.MKTP.CD','NY.GDP.MKTP.CD', 'SP. DYN.LE00.IN','NY.GDP.MKTP.CD', 'SP.DYN.LE00.IN'], '値':[np.nan,np.nan,0.9,np.nan,0.7, 0.2 、0.3、0.6]})
編集
目的の出力は次のようになります。
r - Rのデータフレームで変数の型を識別するにはどうすればよいですか?
いくつかの異なる方法を使用して、欠落値代入のためのチーム向けの包括的な自動化コードを作成しようとしています。ロジックは知っていますが、代入に選択する方法を決定する際に重要なデータクラスの識別に問題があります。
ここで、コードで変数の型を次のように識別します。
- 複数のレベルを持つカテゴリ/因子
- 1 と 0 の 2 つの水準を持つ因数分解 (バイナリ)
- 「はい」と「いいえ」のように、1 と 0 を除く 2 つのレベルで因数分解します。
- 連続
これが私が持っているWIPコードですが、うまく機能していません。データが異なるとロジックが失敗することを理解しています
他の人が使用できるように、汎用にするために使用したロジックを改善しようとしていますが、ここで壁にぶつかっています。どんな助けにも感謝します。
python - Pythonで値を中央値に置き換える
これらの緯度の値でグラフをプロットしたところ、グラフに突然のスパイク (外れ値) があることに気付きました。意味のある結果を表示できるように、すべての緯度の値を最後の 3 つの値の中央値に置き換えたい
出力は次のようになります。
私はそのような緯度の値を何千も持っており、for ループを使用してこれを解決する必要があります。次のコードにはエラーがあることを知っています。私は Python の初心者なので、これを解決するためにあなたの助けに感謝します。
3 点の中央値の計算が目的を果たせず、5 つの値を考慮する必要があることに気付きました。中央値関数を必要な数だけ変更する方法はありますか。ご協力ありがとうございました
scala - 欠損値を平均値に置き換える - Spark Dataframe
値が欠落している Spark データフレームがあります。欠損値をその列の平均に置き換えることで、単純な代入を実行したいと思います。私は Spark を初めて使用するので、このロジックの実装に苦労しています。これは私がこれまでにやったことです:
a)単一の列(列Aとしましょう)に対してこれを行うには、次のコード行が機能するようです:
b)ただし、データフレーム内のすべての列に対してこれを行う方法を理解できませんでした。Map 関数を試していましたが、データフレームの各行をループしていると思います
c) SO についても同様の質問があります - here。そして、私はソリューション(集約テーブルと合体を使用)が好きでしたが、各列をループすることでこれを行う方法があるかどうかを非常に知りたいと思っていました(私はRから来たので、次のような高次機能を使用して各列をループしますラップリーは私にはより自然に思えます)。
ありがとう!
missing-data - 単変量 EM アルゴリズムを使用した通常の代入
不足しているデータを EM アルゴリズムで埋める方法の例が必要です。データは、株価の毎日の相対変化として、正規分布の一変量サンプルを想定しています。私はいくつかの文献検索を行いましたが、これに関する例はほとんど見つかりませんでした。欠損データの代入への EM アルゴリズムの適用について話すとき、彼らは通常、多変量の場合の例を挙げているようです。これらは、ほとんどの論文/講義ノートから私が目にするケースです。
今、人々が一変量サンプルの欠損データを EM アルゴリズムで埋めるかどうか、また EM アルゴリズムの代入がこの場合の平均代入と同等であるかどうか疑問に思っています。いくつかの洞察を共有したり、このトピックに関する参考文献へのリンクを提供していただければ幸いです。
r - R MICE は新しい観測を帰属させます
パッケージを使用してmice
データを代入すると、次の問題が発生します。
NA
トレーニング セットに欠落しているデータを既に帰属させているため、新しい観測値の値を置き換える方法を見つけることができないようです。
例 1
10 個の特徴と 1000 個の観測値を持つデータ フレームのデータを使用してアルゴリズムをトレーニングしました。
このアルゴリズムを使用して新しい観測をどのように予測できますか (データが欠落しています)?
例 2
値を持つデータ フレームがあるとしNA
ます。
mice
パッケージを使用して欠損値を代入します。
オブジェクトdf
には、代入された値を持つ 2 つのデータフレームがあります。
このデータ フレームを使用して、アルゴリズムをトレーニングできます。
新しい観測結果の応答を予測したい、例えば:
新しい個々の観測値の欠損データ a をどのように帰属させるのですか?