問題タブ [data-management]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ios - 配列またはデータベースを使用する必要がありますか? また、どこで初期化しますか?
私は現在 iOS 用の Mapbox SDK を使用していますが、一般的なデータ管理について質問を受けました。
座標とその他の属性を含むテーブルを取得しました。テーブルには約 600 ~ 700 行あります。今、アプリ内でこのデータを保存して初期化する最良の方法は何だろうと思っていましたか? 2 番目の質問は、このデータをどこで初期化すればよいですか?
質問 #1: すべてのデータをコードに入れ、配列を初期化する必要がありますか? それとも、ローカル データベースを作成し、そこからデータをクエリしたほうがよいでしょうか? それとも他のファイル形式ですか?質問 #2: appDelegate 内でデータを初期化/データベースに接続する必要がありますか? または、これを行うのに最適な場所はどこですか?
database - HDF5 とデータベースのベスト プラクティス
多数の HDF5 ファイルに含まれるデータを整理するシステムをセットアップしようとしています。私が読んだことから、私のニーズに合ったこれを行う最も簡単な方法は、ファイルへのパスと最上位のメタデータを含む SQLite データベースを作成することだと思われます。
私はデータベースの経験があまりないので、そのようなデータベース (他の約 5 人が使用する予定です) を維持するためのベスト プラクティスはどのようなものになるのだろうかと考えています。ファイルがデータベースに追加されるたびに実行され、HDF5 メタデータを SQLite テーブルにコピーするスクリプトを単純に作成する必要がありますか? アドバイスをいただければ幸いです。
また、一般的にこれが HDF5 ファイルの使用方法なのか、それともデータベースの代わりにすべてのデータを 1 つの HDF5 ファイルに入れるのが一般的なのかについても疑問に思っています。
r - 「次の条件のいずれかが真の場合、行 x を選択する」という基準でサブセットを選択するための R コーディング
より大きなデータセットのサブセットに含まれる観測を選択しています
R コード:
特定の列に「1」が 1 つある観測のみを含むデータのサブセットを選択するにはどうすればよいですか (この場合、行 2 と 5 を選択する必要があります)。
sed - 2 番目のインスタンスを文字に置き換えます
次のような数千行を含むファイルがあります。
ドキュメント全体で、2 番目の「:」をスペースに置き換える必要があります。通常、次のような単純なものでこれを行います。
しかし、これはもちろん両方のコロンを置き換えます。SECOND コロンのみを置換するように指定する方法がわかりません。助言がありますか?
makefile - 既存のファイルの年齢をチェックするダミー ターゲットを作成しますか?
統計分析でデータ フローを制御するために make を使用しています。ディレクトリに生データがあり、./data/raw_data_files
クリーンなデータ キャッシュを に作成するデータ操作スクリプトがあるとします./cache/clean_data
。make ルールは次のようなものです。
./data/
make やデータ変更スクリプトを使用して、のデータに触れたくありません。./data/
特定のファイルが最後に実行されたよりも新しいかどうかを確認するだけの cache/clean_data の依存関係を作成する方法はありますか?
r - r - 各グループ内で異なる数の観測を選択する方法
私はr(sasから来ました)に比較的慣れていません。各グループ内で異なる数の観測を選択する必要があります。グループは 2 つの変数の値によって識別されます
試してみました(質問「Rの各レベルで最初の80個の観測を選択してください」から)
を与える
エラー: length(n) == 1L は TRUE ではありません
これはおそらく専門家にとって明らかなエラーです (na スカラー、NumObs はベクトル?)
同じ質問から、私は試しました:
を与える
エラー: length(n) == 1L は TRUE ではありません。さらに: 警告メッセージ: Split.default(x = seq_len(nrow(x)), f = f, drop = drop, ...) : データ長が分割変数の倍数ではありません
それで、前と同じエラーに加えて、複数のもの、グループの長さが異なる場合、分割を使用できませんか?
次に、「グループごとの観測番号」という質問を見つけました。私の場合、rle /シーケンスの回答を機能させることができませんでしたが、ddplyの回答を適応させました。
動作します。
明らかに、私の実際のデータははるかに大きいので、代替のより良い方法はありますか? ありがとう!
r - 一意のペアで複数の行を選択し、可能なすべてのペアについてランダムな選択をエクスポートします
非常に大きなデータセットを扱っていますが、これまでに経験したことのない固有の問題があります。これは GPS ポイントとペアになったレーダー データです。レーダー処理を通じて、データ ポイント間を補間して、地平線を選択するためのレーダー画像を滑らかにしました。エクスポート後、実際のポイントごとに複数のポイントができました (緯度と経度のエントリが繰り返されていることに注意してください)。これはその補間のアーティファクトであり、実際のデータではありません。私がやりたいのは、緯度と経度の一意のペアごとに 1 つのエントリを選択し、それを新しいデータ フレームに貼り付けることです。時間を平均するか、ランダムに選択するかはまだ決めていませんが、一意のペアをペアにしようとして成功していません。私のジレンマは、各列に約 4000 個の一意の値があるため、単純な for ループは私のニーズに合わないようです。私のデータの上部のサンプルを以下に示します。
私はMatlabとRに精通しているので、より単純なソリューションを提供するものは何でも問題ありません。
TL;DR: グループ化された緯度と経度の各ペアを選択し、そのグループの単一のエントリを新しいファイルにエクスポートします