問題タブ [missing-data]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
amazon-web-services - Amazon EBS スナップショットは、変更されたファイルをどのように判断しますか?
通常、同期アプリケーションは、ファイル サイズの変更と変更日に基づいてファイルの変更を検出します。これは Amazon EBS スナップショットプロセスにも当てはまりますか?
最近、ファイルが一定期間にわたって何度も変更されたにもかかわらず、固定サイズのファイルがスナップショットから除外されていることに気付きました。最新のスナップショット (実際には、最初のスナップショットの後に作成されたすべてのスナップショット) が新しいインスタンスに読み込まれると、ファイル内に最初のコンテンツしか配置できませんでした。ファイルの変更日も最初の日付に設定されていました。
これにより、Amazon EBS スナップショットが変更されたファイルをどのように判断するのか疑問に思いました。固定サイズのファイルがスナップショットに正しく追加されるようにするために変更できる構成はありますか?
r - 時系列の欠落データに対して「NA」を作成する方法
次のようなデータのファイルがいくつかあります。
データが欠落している場合もありますが、NA がなく、単に行が存在しません。データが欠落しているときに NA を作成する必要があります。Zooオブジェクトに変換して厳密な規則性を確認することで、それがいつ発生するかを特定することから始めることができますが(以前はzooを使用したことがありませんでした)、次のコードを使用しました。
しかし、答えは常に真です!
なぜ機能しないのか誰にも教えてもらえますか? または、データが欠落している場合に NA を作成する方法を教えてください (zoo パッケージの有無にかかわらず)。
ありがとう
dataset - 予測のためにニューラルネットワークモデルで使用されるデータの欠測値
現在、予測ニューラルネットワークのトレーニングに使用されるデータがたくさんあります(米国周辺の主要空港のギガバイトの気象データ)。私はほぼ毎日のデータを持っていますが、一部の空港ではデータに値がありません。たとえば、空港は1995年以前には存在していなかった可能性があるため、その特定の場所に関するデータはそれ以前にはありません。また、一部は1年間欠落しています(1つは1990年から2011年にまたがり、2003年が欠落している可能性があります)。
ニューラルネットワークを誤解することなく、これらの欠落値を使用してトレーニングするにはどうすればよいですか?空のデータを0または-1で埋めることについては考えていますが、これにより、ネットワークが一部の出力に対してこれらの値を予測するようになると思います。
r - R: NA をベクターの項目に置き換えます
データの一部の欠損値を、類似したグループの平均値に置き換えようとしています。
私のデータは次のようになります。
そして、私はそれを次のようにしたい:
私はこれを書きました、そしてそれはうまくいきました
しかし、私の data.frame はほぼ 50 万行の長さで、for/if ステートメントはかなり遅いです。私が欲しいのは次のようなものです
しかし、これはサイズの不一致エラーになります。これを行うコマンドがあるはずですが、ここの SO または R ヘルプ リストで見つけることができません。何か案は?
r - Rの回帰で残差のNAを処理するにはどうすればよいですか?
そのため、R の断面回帰NAの残差の値に問題があります。lm
問題はNA値そのものではなく、R がそれらを提示する方法です。
例えば:
この単純な例では、NA値によって残差の 1 つが失われます。残差を抽出すると、3 番目のインデックスが欠落していることがはっきりとわかります。これまでのところ、ここで苦情はありません。問題は、対応する数値ベクトルが 1 項目短くなったため、3 番目のインデックスが実際には 4 番目になることです。R にこれらの残差を返すようにするにはどうすればよいですか。つまり、NAインデックスをスキップする代わりに明示的に表示するにはどうすればよいですか?
個々の残差をすべて追跡する必要があるため、代わりにこの方法でそれらを抽出できれば、私の人生はずっと楽になります。
r - RでポアソンGLM回帰の欠損値を予測/代入していますか?
データセットに欠損値を代入する方法を探ろうとしています。私のデータセットには、年 (2001 ~ 2009)、月 (1 ~ 12)、性別 (M/F)、および年齢グループ (4 グループ) の出現回数 (不自然、自然、合計) が含まれています。
私が探求している代入手法の 1 つは、(ポアソン) 回帰代入です。
私のデータが次のようになっているとします。
基本的な GLM 回帰を実行した後、欠落しているため 96 個の観測が削除されました。
このGLMモデルの係数を使用してTotalの欠損値を「予測」(つまり、代入)するRの方法/パッケージ/関数はおそらくありますか?それらをマージするには)?係数を使用してさまざまな階層行を予測できることはわかっていますが、これには永遠に時間がかかります。うまくいけば、ワンステップ関数/メソッドがありますか?
matlab - MATLAB - データが欠落している CSV を読み取る最良の方法
データが欠落している可能性のある CSV ファイルがあり、データは文字と数値の両方です。これに対処する最善の方法は何ですか?
python - 不足しているデータを再コーディングするNumpy
私はmatplotlibcvs2rec関数を使用して国勢調査データを読み込んでいます-正常に動作すると、素晴らしいndarrayが得られます。
しかし、すべての値が「none」であり、dtype | 04である列がいくつかあります。これは、Atpy「TypeError:NoneTypeのオブジェクトにlen()がありません」にアクセスしたときに問題が発生します。「9999」などがありません。実配列をATPYに渡しており、MASKを変換しないため、この場合、マスクは機能しません。numpyのPut関数は、値を変更するための最良の方法である値がないと機能しません。ある種のブール配列が進むべき道だと思いますが、それを機能させることはできません。
したがって、none値および/または初期化されていないnumpy配列を「9999」または他の再コード化のようなものに変更するための良い/高速な方法は何ですか?マスキングなし。
ありがとう、
マシュー
r - R で選択した列のすべての NA を FALSE に置き換えます
this oneに似た質問がありますが、私のデータセットは少し大きいです: UID として 1 列を含む 50 列と、 or のいずれTRUEかを運ぶ他の列、すべてをtoNAに変更したいのですが、明示的なループを使用したくありません。NAFALSE
plyrトリックを行うことができますか?ありがとう。
更新 #1
迅速な返信ありがとうございますが、私のデータセットが以下のような場合はどうなりますか?
X1私は処理したいだけですX2が、どうすればこれを行うことができますか?
mdx - OLAP/MDX は、さまざまな集計レベルで不明な値を持つデータを処理するための良い方法ですか?
私は OLAP を初めて使用するので、この質問に使用する適切な用語を知らないかもしれませんが、ここで我慢してください。
親/集計セルにはほとんどデータがありますが、子/葉のセルにはデータが欠落していることが多い(属性値は不明ですが、ゼロではありません)。現在、スクリプトと SQL を組み合わせて使用していますが、扱いにくくなっています。データの構造には OLAP キューブと MDX の方が適しているように見えますが、それを処理する必要があるタスクには必ずしも適しているとは限りません。例えば:
- OLAP は主に読み取り専用レポート用に設計されているようです。バッチ処理でデータに多くの変更を加えます
- OLAP は、集計を計算するために完全なリーフ レベルのデータが必要なようです。私のデータにはさまざまなレベルで欠損値があります
私がやりたいことの例:
- 元のマルチレベル データをキューブにロードし、既知の親を保持します。それらの値を子の計算された集計として上書きしたり表示したりしないでください (不完全な場合があります)。
- 複雑なクエリ/他のキューブの結合の結果に基づいて、キューブ内のセルを作成/更新/削除します。場合によっては、キューブを変換して、わずかに異なるディメンション定義を使用する必要があります。
- ユーザーは未知の値の見積もりを必要とします。適切な見積もりを作成することはできますが、すべてのディメンションとレベルで既知の親/子に準拠するように調整する必要があります (これは思ったよりも難しいことです)。私はすでにこれを行っていますが、データを RDBMS からカスタム実行可能ファイルにプルする必要があります。
- クエリと計算では、未知数を適切に処理できる必要があります。理想的には、集計されたセルの値のどの程度が推定値と既知の値で構成されているかを簡単に問い合わせたり、信頼/エラー統計を計算したり、既知の親とすべてがある場合に未知のセルの正確な値を導出できるかどうかを確認したりできます。知られている兄弟など
- データは大きくなる可能性があります... 最大数千万のファクト テーブル行。バッチ ジョブのパフォーマンスはまともなものである必要があります (数分で問題ありませんが、数時間で十分です)。
OLAP サーバーと MDX は、この種の作業に適したツールでしょうか? 階層/多次元/ギャップ充填データの操作に適した他のツールはありますか?