問題タブ [data-cleaning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
1147 参照

bash - awk または sed を使用したデータのクリーニングとフォーマット

ここに私のテキストファイルの抜粋があります

最初の列と日付を維持しながら、フォーマットしてクリーニングしようとしています。ただし、ご覧のとおり、最後の行に 10 があります。sei_bsco_m削除すると の日付が切断されるため、削除できません。

どんな助けでも大歓迎です。

コードはこちらhttps://ideone.com/JbuRHK

望ましい出力は次のとおりです。

0 投票する
1 に答える
398 参照

r - 値に一致する行を削除する

一部のデータを除外しようとしています。列に数値が含まれているとします。すべての列でゼロに等しい場合は移動する必要があります。私は複数の試合を行うことについて考えました

しかし、最後のベクトルを指定して位置を指定するため、明らかに機能しません...データは次のようになります。

INJURIES、FATALITIES、CROPDMG、PROPDMG (すべて同時に) の 0 であるすべてのエントリを一致させて削除することに興味があります。私は既に complete.cases() で NA を除外しています。ありがとう

0 投票する
3 に答える
28100 参照

stata - Stata にデータがない観測を削除するにはどうすればよいですか?

すべての値が存在する場合と存在しない場合がある ID を持つデータがあります。データが含まれていない観測のみを削除したい。値が1つでもある観測がある場合は、それらを保持したいと思います。たとえば、私のデータセットが次の場合:

ID 2 だけを削除します。これは、データがない唯一の ID であり、ID のみです。

Statalist と Google を試しましたが、関連するものが見つかりませんでした。

0 投票する
1 に答える
1767 参照

xml - Rを使用して、フォーマットされたxlsxワークシートに新しいデータを追加します

新しいデータが入ってくると、パッケージを使用して複雑なデータセットのクリーニングを支援しようとしていxlsxます。次のようなワークフローを目指しています。

  1. データを R にインポートし、コード化されたデータのクリーニングを行います。
  2. データをxlsファイルとして書き込み、ドロップボックスフォルダーに保存します
  3. R に詳しくない同僚 (および私自身) は、手動でデータ クリーニングを行うことができます。
  4. さらにデータが入ってきたら、手順 1 を繰り返して既存の XLS ファイルに追加し、強調表示、コメント、太字などの書式設定を保持します。

最後に、これが LibreOffice (私が使用している Linux) と Excel (同僚が使用している Windows) で機能することを望んでいることに関連性があるかどうか、私は興味があります。

現時点では、既存のスプレッドシートにデータを完全に書き直さずに追加する方法を見つけるのに苦労しています (したがって、書式設定が失われます)。

irisプリロードされたデータセットを使用して、私ができるようにしたいことの例を次に示します。

(スクリーンショットを参照) ここに画像の説明を入力 ここに画像の説明を入力

このappend=TRUEオプションは、単にワークシートをワークブックに追加するように設計されているため、ここではあまり役に立ちません。

または、スプレッドシートの書式設定をある種の R オブジェクトに読み取り、それを書き換えられたファイルに適用して、次のようなことを行うことは可能ですか?

R から書式設定を定義できる同様のコマンドがいくつかありますが、書式設定を読み取ってから再書き込みできるコマンドが見つかりません。

0 投票する
1 に答える
383 参照

python - Pandas: 連続していないデータの再インデックス化と補間

私は 24 時間の期間に配置されたデータセットを持っており、1 時間の期間がスキップされる可能性がある状況に対処できるデータクリーニングシステムを作成しようとしています (たとえば、このように行が欠落していない午前 4 時から午後 3 時までとします:)

データセットが不足している行を NaN で挿入して埋めるようにしたいこれまでのところ、データを読み込んだ後、試しました

しかし、それは私にとってはうまくいきませんでした。何が間違っているのかわかりません。stackoverflow で他の回答を見てみましたが、回答が見つかりませんでした。

助けてくれてありがとう。

編集:クリーンフレームヘッドはこのようになります

そしてクリーンフレーム情報

0 投票する
2 に答える
124 参照

r - 可変数の引数を持つ単純な R 関数

私は一連の stata コードを R に変換してデータ クリーニングを実行するプロジェクトに取り組んでいます。私がやろうとしていることの 1 つは、以前にコード化されたすべての Yes/No 変数を消去する単一の R 関数を作成することです。 as (Yes = 1, No = 2) を標準のダミー変数に。

問題は、この関数によってクリーンアップする必要がある変数の数が常に変化することです。したがって、関数は引数として (1) すべての変数を含むデータセット/データフレーム、および (2) クリーニングする必要がある変数のリストを受け取る必要があると思います。

私はRにかなり慣れていないので、これに関する助けをいただければ幸いです。

ありがとう!

0 投票する
1 に答える
184 参照

r - R で冗長な時系列チーム データを消去する

次のようなデータセット (「dat」) があります。

時系列順です。データセットの最初 (つまり、最も早い時点) から始めて、次のいずれかのインスタンスを排除したいと考えています。以前に形成されたチームが集まりました。どちらの状況でも、以前のグループ化を保持し、新しいグループ化を削除したいと考えています。

たとえば、私の例のデータセット チーム 6595978 と 7545798 は両方とも削除する必要があります。チーム 6595978 はチーム 9595288 (以前に時系列でリストされていた) の正確なレプリカであり、チーム 7545798 はチーム 9595288 のサブセットです。ただし、チーム 2095820 は削除しないでください。チーム 2095820 には、以前にリストされたチーム 1595882 のすべてのメンバーが含まれていますが、チーム 2095820 は、新しいメンバーである個人 37506459 が追加されたため、保持する必要があります。

どんな/すべての提案も大歓迎です。前もって感謝します!

エイミー

0 投票する
1 に答える
145 参照

case - 分類のための SQL Server 2014 文字列検索: 複数の検索文字列の複雑な CASE WHEN (ルール)

制御された入力を使用していない従来のデータ入力システムを使用しています。すべてが varchar(max) フィールドに格納されますが、残念ながら、言い方には多くのバリエーションが含まれています。

何かがいつ調整されたかを知りたい場合、「どこで t.col が '%cal%' のようになったか」とだけ言うことはできません。

「CAL、CAL.、Calib.Calibrate、calibrate、Calibration、calibration、Cal'd...」のような場合には機能しますが、スペルが間違っているバリアントでは機能しません。

また、その人は「NO cal reqd, don't cal.」と言っているかもしれません。

テキストは、アクションが行われたことを「推測」する場合があります。「キャリブレーション」は、「ベースラインに調整、手順ごとに調整」と書かれている場合があります。

あるケースからわかるように、文字通り何千もの潜在的な「ルール」があります。

約 30,000 件のレコードを処理し、データが分類される約 30 (0,1 / true/false) のカテゴリにインテリジェントに解析するのに約 2 週間かかりました。

T-SQLを使用して手動処理を置き換える便利なクエリ構造を誰かが教えてくれるかどうか知りたいです。

0 投票する
1 に答える
14339 参照

python - col == None の pandas データ フレームをフィルター処理する

data_df複数の列を持つデータ フレームがあり、そのうちの 1 つはc国名を保持しています。行を除外するにはどうすればよいですかc == None

私の最初の試みはこれを行うことでした:

ただし、それは0行をもたらしました。ただし、これは機能しました。

誰かが理由を説明できますか?Pandas doc から、最初のものは正しくフィルタリングできるはずです。

いくつかのサンプル行:

0 投票する
0 に答える
54 参照

excel - Excelデータをより少ない列に強制するにはどうすればよいですか

3500 行の会社データのセットがあります。統計分析を実行できるように、このデータをフォーマットに入れようとしています。私の問題は、列 C:D のすべてのデータを取得して転置したいということです。データを転置する方法は知っていますが、現在、データの幅は 3000 列です。このデータを取得して、転置されたデータが 5 列に制限され、追加の各列が次の列の下に配置されるようにするにはどうすればよいですか。下の画像では、緑が必要な形式で、赤が転置されたすべての情報です。この赤い情報を緑の列に移動します。より明確な説明については、画像を参照してください。 ここに画像の説明を入力

どんな助けでも大歓迎です。