問題タブ [data-cleaning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
3 に答える
1808 参照

database - クリーンアップされた生データをデータベースに保存する方法は?

生データはデータベース(複数のテーブル)に保存されます。手動でチェックして修正する必要があります。チェックされたデータは、生データとともにデータベースに保存する必要があります。その場合、2 つの別個のデータベース (例: raw_data と checked_data) を作成することをお勧めしますか? または、データベースは 1 つだけにする必要がありますか? ありがとう

0 投票する
1 に答える
291 参照

database - データクレンジング:ユーザーが入力したデータベースデータツール

冗長で不良なデータを含むデータベースを取得しました。例として、冠詞の名前の中には大文字と小文字の違いがあるもの、アクセントの問題があるもの、文字がないものなどがあります。アイデアは、実際には同じであるdbレコードをマージすることです。

データベースを簡単にクリーンアップできる優れたツールはありますか?理想的には、これは自動的には実行されませんが、ユーザーの確認が必要になります

0 投票する
2 に答える
124 参照

php - データ内の文字を正規表現で置き換える

特殊文字のジャンクアップされたデータ(いくつかを許可)をクリーンアップしようとしていますが、それでも成功するものもあります。以前に正規表現スニペットを見つけましたが、アスタリスクなどの一部の文字は削除されません。

最初の部分は、通常の句読点や英数字ではない生のテキスト内のすべてをクリーンアップしようとします。次に、タイトルを配列に分割し、スペースを探します。私がやりたいのは、15文字以上の長さのタイトルを作成し、句読文字で停止することなく、スペースで切り捨てる(単語全体をそのままにする)ことです。これは私が問題を抱えている部分です。

一部のタイトルは、最初のタイトルに'が含まれていてはならず、セクションがたとえばである場合でも、*****************またはとして表示されます。** HOW TO MAKE $$$$$$ BLOGGING ***HOW TO MAKE...

0 投票する
6 に答える
4754 参照

python - データをクリーニングするための Python または awk/sed

私はデータ分析に R を使用しており、非常に満足しています。ただし、データのクリーニングは少し簡単になる可能性があります。この仕事に適した別の言語を学ぶことを考えています。具体的には、生データを取得し、不要な変数や観察結果を削除し、R に簡単にロードできるようにフォーマットするために使用するツールを探しています。コンテンツは、複数行のテキストではなく、ほとんどが数値および文字列データになります。

Python と awk/sed の組み合わせを検討しています。(Perl も別の選択肢になることは承知していますが、別の完全な言語を学ぶつもりなら、Python の方が優れていて、より拡張性の高い選択肢のようです。)

sed/awk の利点は、習得が早いことです。欠点は、この組み合わせは Python ほど拡張性がないことです。確かに、Python を学べば「ミッション クリープ」を想像するかもしれませんが、それは問題ありませんが、私の目標ではありません。

私が考えていたもう 1 つの考慮事項は、大規模なデータ セットへの適用です。私が理解しているように、awk/sed は行単位で動作しますが、Python は通常、すべてのデータをメモリに取り込みます。これは、sed/awk のもう 1 つの利点となる可能性があります。

私が見逃している他の問題はありますか?アドバイスをいただければ幸いです。(R ユーザーがクリーニングの推奨事項を提供できるように、R タグを含めました。)

0 投票する
1 に答える
784 参照

python - SQL/MySQL/PostgreSQL テーブルで高度なデータ クレンジングとフォーマットを実行するための最適な言語/手法は何ですか?

Visual FoxPro には、対話的にデータをクレンジング/フォーマットするために使用する一連のユーティリティ スクリプトがあります。このコードを移行して、MySQL や SQLite などの他のデータベース プラットフォームを利用できるようにしたいと考えています。

たとえば、名前や住所の行を適切な大文字/小文字に変換するスクリプトを実行します。このコードはテーブル全体を調べ、各行を分析/修正します。アドレスの解析と標準化、さらには重複検出などを行うものもあります...

コードを Python に移行し、SQLAlchemy のようなものを「仲介者」として使用することを考えています。

Visual FoxPro では、データベースとテーブルが統合されているため、テーブルを開いてコマンドを実行するだけです。MySQL は、そこからデータを抽出し、その抽出されたデータを処理してから、テーブルを更新する必要があるという点で異なります。

最善のアプローチは何ですか?

いくつかの可能性があります。

1) 作業対象のデータセット全体を抽出します。たとえば、すべての住所フィールドを抽出し、それが作業対象である場合は、すべてを更新してすべて書き戻します...

2) 大量のシステム メモリを潜在的に消費しないように、データ セットをチャンクで抽出します...その後、更新して書き戻します

3) おそらく SQLAlchemy のようなツールの助けを借りて、サーバーに送信されて実行される SQL コードを生成します...

4) ??? 私が考えていなかった他の何か?

0 投票する
2 に答える
1041 参照

mongodb - データウェアハウジングのステージングステップ?

通常、人々はデータ ウェアハウジングでステージング ステップをどのように実行しますか??

同様のタスクを実行する必要がありますが、NoSQL データベースを使用することがデータ統合の目的に適しているかどうか、データのクレンジングとスクラブを実行するのがどれほど簡単で効率的かはわかりません

誰かがこの分野で何らかの仕事をしたことがありますか?

私にお知らせください

一般的な質問で申し訳ありませんが、SOよりもそのような質問をするのに適した場所が思いつきませんでした

ありがとうございました

0 投票する
1 に答える
172 参照

in-memory-database - インメモリデータベースをクリーンアップする

SpringBatchメタデータ用にHSQLDBインメモリデータベースでSpringBatchを使用しています。私のアプリケーションは継続的に実行する必要があるため、このデータベースは私のメモリにとって問題になります。定期的に掃除する方法が必要です。条件に応じてデータ(古いデータ)を削除するストアドプロシージャの使用については、すでに考えました。このプロシージャは、SpringStoredProcedureクラスを使用する専用スレッドによって定期的に呼び出されます。

あなたが代替の解決策を持っているなら、私はオープンです。

ありがとう

0 投票する
2 に答える
2684 参照

informatica - この列に許可されている指定された精度よりも大きい informatica 値

Informatica で 1 対 1 のマッピング ダイレクト マッピングを使用して、テーブル A の複製であるテーブル ADuplicate をロードしようとしました。

しかし、次のエラーが発生しました:「この列に許可されている指定された精度よりも大きい値」

両方のテーブルで number(15) である C4 列に、ロード中に問題があることに気付きました。

読み込みエラーのあるデータは 200000300123 と -1000000000000000000000000000000000000000

私の疑問は次のとおりです。

  1. この値は、同じ精度のソースで使用できます。ターゲットに入らないのはなぜですか?
  2. ターゲット列 C4 をただの数値フィールドとして変更しました。TOAD を使用してこの値を手動で挿入できましたが、Informatica を使用して同じことができなかったのはなぜですか?

私を助けてください。

前もって感謝します

シャンムガム

0 投票する
0 に答える
2117 参照

php - PHP/MySQLでLOAD DATA INFILE中にCSVフィールドのスペース、CR、LFをトリミングする最良の方法は?

LOAD DATA INFILE について約 4500 の質問がありますが、特定の問題に対処するものは見つかりませんでした。

CSV ファイルを MySQL データベースにアップロードするユーザーがいます (私はバックエンドで LOAD DATA INFILE スクリプトを使用しています)。フィールドには、消去する必要がある間抜けな文字が含まれていることがあります。具体的には、スペース、CR、および LF です。

LOAD クエリは次のとおりです。

コードは問題なく動作します。やりたいことは、ジャンク文字が含まれている可能性のある入力フィールドをクリーンアップすることだけです。REPLACE を使用して SET 行のクリーンアップを簡単に実行できると思います ...これは本当ですか?

私が持っていた別のアイデアは、後続のクエリでこれを処理することでした:

だから私の質問は4つです:

  1. ジャンク文字が見つからない場合、入力が壊れますか?
  2. スペースもトリミングしたい場合はどうすればよいですか?
  3. 「\r」しかない場合、スキップされるか失敗しますか?
  4. どういうわけか正規表現を使用するより良い方法はありますか?

ありがとう!!

0 投票する
1 に答える
3883 参照

csv - いくつかの優れたデータクリーンアップツールは何ですか?

大量の複雑なファイル(ほとんどはCSVファイルですが、そうでないものもあります)を解析しているので、それらをいくつかの標準形式に構造化/解析する必要があります。これには、データの行ごとのクリーンアップだけでなく、いくつかの単純な個別のセルベースのロジックも含まれます。プログラマー以外でも使用できるツールが必要です。これにより、ビジネスチームのメンバーは、エンジニアリングに時間をかけずに、単純なドラッグアンドドロップロジックを記述できます。これまで、GoogleRefineとDataWranglerを見てきましたが最後ものは素晴らしく見えます。他にそのようなツールはありますか?