問題タブ [missing-data]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 相関計算のための欠落値の処理
欠測値がたくさんある巨大な行列があります。変数間の相関関係を取得したい。
1.解決策はあり ますか
以下より良いですか?
欠測値が20%を超える変数のみをすでに選択しています。
2.意味をなすための最良の方法はどれですか?
r - ベクトルから NA 値を削除する
いくつかの値を持つ巨大なベクトルがありNA
、そのベクトルの最大値を見つけようとしています (ベクトルはすべて数値です) が、NA
値のためにこれを行うことができません。
NA
最大値を計算できるように値を削除するにはどうすればよいですか?
r - R の欠損値の平均または最頻値を置き換える
欠損値のある混合データ型 (数値、文字、因子、順序因子) で構成された大規模なデータベースがあり、for ループを作成して、数値の場合はそれぞれの列の平均または文字/係数の場合のモード。
これは私が今まで持っているものです:
「モード」は関数です。
ただし、ステートメントを無視しているように見えますが、エラーは発生していません...最初の部分をインデックスで解決しようとしました:
しかし、次のエラーが表示されます:「colMeans(df_test, na.rm = TRUE) のエラー: 'x' は数値でなければなりません」
これを解決する方法を知っている人はいますか?
大変お世話になりました。-f
r - Rを使用して地理的近接性を使用して欠落しているカテゴリ値を埋めるにはどうすればよいですか?
次のようなデータがあります。
緯度と経度の座標に基づいて、大学の列に欠損値を代入したいと考えています。これは、データが 500K 行あり、大学の列ではかなりまばらであるため、明らかに構成されています。アメリアのような代入パッケージは、線形モデルに従って数値データを適合させたいようであり、動物園は、私が持っていないある種の順序付けられたシリーズに基づいて欠損値を埋めたいようです。正確な緯度と経度のペアだけでなく、近い緯度と経度を一致させたいので、別の列の値を一致させることで 1 つの列を埋めることはできません。
大学に関連付けられているすべての緯度と経度のペアを見つけて、それらの周りに境界ボックスを描画し、緯度と経度のペアを含むが大学のデータが欠落しているすべての行に対して、緯度に応じて大学の適切な値を追加することで、問題にアプローチする予定です。 - それらが入っている長い箱、またはおそらく既知の場所の中点から特定の半径内にあります。
誰かが似たようなことをしたことがありますか?地理的に近い緯度と経度のペアをグループ化したり、地理に基づいた代入を実行したりするのを容易にするパッケージはありますか?
それが機能する場合は、データ内の既存の値に基づいて他の欠損値のいくつかを代入することにクラックを入れたいと思います (xyz、foo、ハーバード値を含む行の 90% も 4 番目のカテゴリにライオンがあるため、 cat4 のいくつかの欠損値を代入することができます) が、それは別の問題であり、私はもっと難しい問題を想像します。
haskell - Haskell でまばらに欠落しているデータの効率的な処理
データ分析に Haskell を使用しようとしています。私のデータセットはかなり大きい (数十万、場合によっては数百万の観測) ため、理想的には、効率のためにボックス化されていないデータ構造 (Data.Vector.Unboxed など) を使用したいと考えています。
問題は、データに欠損値が含まれていることです。これらを「99」などのようにコーディングすることは避けたいと思います。これは単なる醜いハックであり、バグの潜在的な原因になるからです。私のHaskell初心者の観点から、次のオプションを考えることができます:
- アンパックされ
Maybe
た値のボックス化されたベクトル。次のようなもの(間違っている場合は修正してください):
data myMaybe a = Nothing | Just {-# UNPACK #-} !a
newtype instance Data.Vector.Unboxed.Vector (MyDatum a) = MyDatum (Data.Vector.Unboxed.Vector (Bool,a))
ボックス化されていない(ボックス化されていない) タプルのベクトル。ブール要素は欠落を示します。値/スパース性 (代わりに、ボックス化されていないベクトルのボックス化されたベクトルとしてではなく、ボックス化されていない配列全体を表現する方法に焦点を当てています)。Int
Bool
- ボックス化されていないベクトルのタプル。1 つは値、もう 1 つは欠損値が挿入されるインデックス、非欠損値のランレングス、または同等の情報です。これはオプション 2 よりも望ましい場合があります。
thisのようなものではなく、ベクトル表現内に留まろうとしています。これは、 dataではなく、スパースな欠損値であるためです。
これらのオプションの相対的なメリット/実現可能性/既製の可用性/可能性のあるパフォーマンスに関するコメント、または実際にはまったく異なる代替案へのポインタは大歓迎です!
編集:
- 答えは、データに対して実行する操作の種類に依存する可能性があることが指摘されています。現時点では、各変数ではなく、各観測値を 1 つのベクトルに格納する方が便利なようです。したがって、ベクトル内のエントリは異なる変数を参照するため、「折り畳み」のような操作はほとんどありません。
- 2. 「有効なビット」ベクトルを 3. 適切な場合に自動的に内部に保存するので、3. を削除できると思いますか?
r - RデータフレームでNA値をゼロに置き換えるにはどうすればよいですか?
データフレームがあり、一部の列にNA
値があります。
NA
これらの値をゼロに置き換えるにはどうすればよいですか?
r - data.frameで欠落している値を報告するエレガントな方法
これは、データフレームから値が欠落している変数をレポートするために作成した小さなコードです。私はこれを行うためのよりエレガントな方法を考えようとしています。おそらくdata.frameを返す方法ですが、行き詰まっています。
編集:私は数十から数百の変数を持つdata.framesを扱っているので、欠落している値を持つ変数のみを報告することが重要です。
c - C のソケットを使用した TCP 転送での欠落データ
オンラインの .dat ファイルを 200 文字のチャンクでダウンロードしていますが、一部のデータが欠落しています。すべてではありませんがほとんどのチャンクが完全にダウンロードされますが、一部のチャンクは部分的にしかダウンロードされず、受信したデータをローカルのテキスト ファイルに直接出力すると、文字が欠落します。
ありがとうございました。
私が使用しているプログラムは以下です。
r - Rの単一の属性を破棄する
Rでは、このna.omit()
関数を使用して、NA値を含むdata.frame内のエントリを破棄できます。副作用として、行が実際に破棄された場合、関数は、破棄されたrow.namesのベクトルを含む結果に属性'omit'を追加します。
この'omit'属性は必要ないので、破棄したいと思います。それを行うための最良の方法は何ですか?
python - Python で欠損値を代入する
欠損値 (None) を前回の既知の値に置き換えたい。これは私のコードです。しかし、うまくいきません。より良いアルゴリズムの提案はありますか?