問題タブ [missing-data]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
213 参照

r - 観測値が Full 未満の日付を削除する

169 日間の高頻度の 5 分間の定期観測をカバーする xts オブジェクトがありますが、一部の日に観測が欠落しています。つまり、288 データ ポイント未満です。これらを削除して、データ ポイントが完全な日だけを表示するにはどうすればよいですか?

データで日を見つける

私は試した

しかし、これでも完全なセットが返されました

ありがとう

0 投票する
1 に答える
3429 参照

amazon-s3 - 完了したジョブのAWSEMRレデューサー出力はどこにありますか(S3にあるはずですが、そこには何もありません)?

AWSのEMRでのHadoopジョブがS3に保存されないという問題があります。小さいサンプルでジョブを実行すると、ジョブは出力を適切に保存します。同じコマンドを実行すると、完全なデータセットでジョブが再び完了しますが、出力を指定したS3には何も存在しません。

どうやら2009年にAWSEMRにバグがあったようですが、それは「修正」されました。

他の誰かがこの問題を抱えていますか?データがサーバーのどこかに埋め込まれていることを期待して、クラスターはまだオンラインになっています。私がこのデータを見つけることができる場所を誰かが知っているなら、私に知らせてください!

更新:レデューサーの1つからのログを見ると、すべてが正常に見えます。

このタスクのノードに接続すると、上記の一時ディレクトリは空になります。

更新2:HadoopでAmazon S3とS3nの違いを読んだ後、問題が出力パスとして「s3n://」ではなく「s3://」を使用しているのではないかと思います。私の小さなサンプル(うまく保存されている)と完全な仕事の両方で、「s3://」を使用しました。これが私の問題になる可能性があるかどうかについて何か考えはありますか?

アップデート3: AWSのEMRでは、s3://とs3n://の両方がS3ネイティブファイルシステムにマッピングされていることがわかります(AWS EMRドキュメント)。

アップデート4:サーバーとレデューサーの数を増やすたびに、このジョブをさらに2回再実行しました。これら2つのうちの最初のものは、89/90レデューサー出力がS3にコピーされて終了しました。90番目は、ログによると正常にコピーされたと述べましたが、AWSサポートはファイルがそこにないと言います。彼らはこの問題をエンジニアリングチームにエスカレートしました。さらに多くのレデューサーとサーバーを使用した2回目の実行では、すべてのデータがS3にコピーされて実際に終了しました(ありがたいことに!)。ただし、奇妙な点の1つは、一部のレデューサーがデータをS3にコピーするのにFOREVERを使用することです。これらの新しい実行の両方で、出力がS3にコピーするのに1〜2時間かかったレデューサーがありましたが、他のレデューサーは最大10分しかかかりませんでした。 (ファイルは3GB程度です)。これは、EMRで使用されているS3NativeFileSystemの問題に関連していると思います(たとえば、長い間ぶら下がっています-もちろん請求されます。アップロードが成功したとされるが、アップロードされない)。最初にローカルHDFSにアップロードし、次にS3にアップロードしましたが、この面でも問題があります(AWSエンジニアリングチームのレビュー待ち)。

TLDR; AWSEMRを使用してS3に直接保存するのはバグがあるようです。彼らのエンジニアリングチームが調査しています。

0 投票する
1 に答える
331 参照

r - データフレーム内の欠落データの省略

私は次のデータフレームを持っています:

x = NAとだけを省略したい場合z = NA

complete.casesNA目的の列に含まれるすべての行を削除します。

したがって、データフレームの最後の行のみを削除する方法がわかりませんDF

0 投票する
1 に答える
612 参照

sql - nHibernate SQL ロギング + スタック トレースを一緒に

実稼働データベースからレコードが時折失われるという問題があります。これは、nHibernate を使用した .NET MVC 2 アプリです。過去数年間、何人かの開発者が取り組んできたので、どこかでマッピングが正しく設定されておらず、nHibernate がこれらのレコードを削除する必要があると考えています。

log4net を使用して、管理者とフロントエンドの両方から nHibernate によって生成されたすべての SQL を (別のファイルに) ログに記録しました。奇妙なことに、私たちのサイトのフロントエンドは、その時点で欠落しているレコードに対して DELETES を生成することがあるようです。フロントエンドとバックエンドは同じデータ モデルを共有していますが、フロントエンドには書き込み/更新機能を持たせるべきではないため、これは奇妙です。すべての CRUD がある管理者のバグであると確信していました。それでも、ログにはあります... DELETESのバッチです。

これらの SQL ステートメントがスタック内のどこから生成されているかについて、より多くの情報を入手したいと思います。すべての nHibernate トランザクションの前に何らかの方法で小さなスタック トレースを取得できれば、それは素晴らしいことです。これまでのところ、私のlog4net設定は次のようになっています:

たぶん、2つのことを別々に記録して、自分で時間を比較する必要があるのでしょうか? 私はちょうど提案を探しています。

ありがとう!

0 投票する
3 に答える
1327 参照

python - Python:CSVファイルで単独で発生する期間を削除するにはどうすればよいですか?

たくさんのCSVファイルがあります。それらのいくつかでは、欠落しているデータは空のセルで表されますが、他の場合にはピリオドがあります。すべてのファイルをループして開き、単独で発生する期間を削除してから、ファイルを保存して閉じます。

re.sub()を使用して単語全体の検索を行うことに関する他の質問をたくさん読みました。それが私がやりたいことです(3.5では.が単独で発生するが、.が発生しない場合は削除します)が、単語全体が特殊文字(')である単語全体のみの検索の構文を正しく取得できません。 ')。また、単語全体をタブや改行で区別できる場合でも、答えが少し違うのではないかと心配です。つまり、/ bはCSVファイルの場合に機能しますか?

更新:以下のヘルプを見た後、私が書き終えた関数は次のとおりです。多分それは他の誰かに役立つでしょう。

0 投票する
2 に答える
3518 参照

python - 欠落している値のマスクされた配列相関(numpy.ma)

numpy.ma.corrcoefを使用して、欠落データが存在する場合の相関を計算しようとしています。

ドキュメントによると:欠落データの処理を除いて、この関数はと同じように機能しnumpy.corrcoefます。詳細と例については、を参照してくださいnumpy.corrcoef

これは2変量データセットであり、1番目と2番目のポイントのみが両方の変数のデータを持っています。

これをマスクされた配列(np.ma.masked_array(t、np.isnan(t))、ここでtは上の配列)としてキャストし、np.ma.corrcoef(rowvar = False)を実行すると、変数は-86.52として与えられます(パーセンテージではなく絶対値で!)。一方、最初の2つのポイントだけでnp.corrcoefを実行すると、1の相関が生成されます(これも絶対値です)。この後者の値は、ドキュメントによると、最初の操作から期待すべきものです。

私のPythonバージョン(Mac OSX.6.8ではEnthought64ビットPyLab)の情報は以下のとおりで、Numpyバージョン1.6.1を使用しています。

Python 2.7.3 | EPD 7.3-1(64ビット)| (デフォルト、2012年4月12日、11:14:05)詳細については、「copyright」、「credits」、または「license」と入力してください。

私がここで欠けているものについてアドバイスしてください!前もって感謝します。

0 投票する
2 に答える
2504 参照

json - JSON と C# を使用してオブジェクトを逆シリアル化するときに guid が見つからない

少し複雑なオブジェクトを逆シリアル化するために newtonsoft のライブラリを使用していますが、MetaData オブジェクト内の Id が入力されていない問題が発生しました。他のすべての値は問題ないようです。すべてのメイン オブジェクトは、Id などのコア プロパティを持つモデル クラスから派生します。ここで何がうまくいかないかについて誰か提案がありますか?

これはテストに使用している JSON です。最上位のオブジェクトはページです。

これが私のコードの(簡略化された)バージョンです:

0 投票する
1 に答える
774 参照

algorithm - 注文が事前計算されるときの線形時間計算量ランキングアルゴリズム

私はC++で効率的なランキングアルゴリズムを作成しようとしていますが、この方法の方がはるかに理解しやすいので、Rで自分のケースを紹介します。

上記がすでに事前計算されていると仮定します。各サンプルセットで単純なランク付けを実行するには、線形の時間計算量が必要です(結果はrank関数によく似ています)。

私が取り組んでいる作業プロジェクトの場合、線形時間計算量で次の動作をエミュレートすると便利です。

このcomplete.cases関数は、同じ長さのnセットが与えられると、どのセットにもNAが含まれていないインデックスを返します。このorder関数は、ソートされたサンプルセットに対応するインデックスの順列を返します。このrank関数は、サンプルセットのランクを返します。

これを行う方法?問題の問題について十分な情報を提供したかどうかをお知らせください。

具体的には、スピアマンの順位和相関係数検定に基づいて、NAが適切に処理されるように相関行列を作成しようとしています。NAが存在する場合は、ペアごとのサンプルセットごとにランキングを計算する必要があります(s n^2 log n)。サンプルセット()ごとに1回次数を計算し、s n log nペアごとの比較ごとに線形の複雑さを使用することで、これを回避しようとしています。これも実行可能ですか?

前もって感謝します。

0 投票する
1 に答える
3428 参照

r - 別の列に基づいて1つの列のNA値を置き換える

authIdに基づいて不足しているものを埋めたいsessionId。私はループを使わずにこれをやろうとしていました。例えば:

0 投票する
2 に答える
2143 参照

r - 実行中の中央値を計算するときに値がありませんか?

スプリアスジッター/エラーを回避するために時系列を平滑化したいと思います。言い換えれば、私はいくつかの非常に局所的なロバストな平滑化を行いたいのです。

zooパッケージでrollmeanとrollmedianに出くわしましたが、ベクターにNAが含まれているため、問題が発生しました。次に、それらの動物園の関数がrunnedを使用し、そこに問題があることをどこかで読みました。

==例==

na.rm = TRUE最初の行は2を返しますが、含まれていなければNAを返します。2行目は。を返しますError in runmed(c(1, 1, 1, 2, 2, 2, 7, NA, 1, 2, 3, 10, 10, 10), k = 3) : NA/NaN/Inf in foreign function call (arg 1)。行にna.rm引数を追加する方法はありません。

NAを処理するためにどのように実行されますか?ちなみに、rollmeanはNAまで正しいベクトルを返し、それ以降はすべての値に対してNAを返します。