問題タブ [data-cleaning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
1063 参照

c# - データベースからデータを消去する

プロジェクトで ORM テレリック オープン アクセスを使用しています。これを使用して、データベースにデータを作成および追加できます。

今、私は自分のデータベースからすべてのデータを消去したいと考えています。各テーブルからデータを削除することで実行できますが、長いコードが必要になります。DBContextを使用してそれをきれいにする方法をグーグルで調べましたが、何も見つかりませんでした。データベースをクリーンアップする別の方法がありますが、DB 内の各テーブルの削除関数を呼び出すためにループしていませんか?

0 投票する
4 に答える
3074 参照

sql - データクレンジング - どの名前がスペルミスであるか、または同等であるがわずかに異なるかを判断する方法は?

会社名と数値の主キー ID を含むテーブルがあります。データをクリーンアップしており、名前列が同じ会社を表す類似の名前でいっぱいであることを発見しました。

例:BA と Ba または GTC Ltd と GTC Limited。

とにかく、SQLサーバーを使用して、類似した名前とIDのリストを持つすべてのアイテムの数と要約を取得できますか. しきい値を設定できる類似性の比較などがあるのではないかと思いました。

マージする必要があると思われる名前のリストをクライアントに提示する必要があります。

0 投票する
1 に答える
452 参照

r - R を使用して、RAM に読み込むには大きすぎるファイル内の不正な行とフィールドを見つけるにはどうすればよいですか?

コンピューターの合計 RAM よりも約 10 倍大きいファイルがあります。R オブジェクトに読み込ませようとしています。これにより、ファイルを見て、より管理しやすいチャンクを抽出できるようになります。私はこれに対してさまざまなアプローチを試みましたが、それぞれに問題 (異なる問題) が発生しました。固定幅形式のファイルのコピーと、CSV 形式のファイルのコピーがあります。それ以外の点では、ファイルは同一であると思います。最初の 5000 行を読み取ることができ、固定幅ファイルの各列に仮のフィールド幅があり、両方のファイルの各列に仮のデータ クラスがあります。この時点で、全体的な目的を達成する方法を尋ねているわけではありません。代わりに、エラーの原因としてデータの形式異常を除外 (または証明) したいと考えています。ファイル全体を読み取った場合、これを行う方法がいくつかわかります。そのままではありません。

そこで、私の質問は次のとおりです。ファイル全体をメモリに読み込まずに、R で固定幅または CSV データを 1 行ずつ読み込む方法はありますか。CSV については、次を確認してください。そうでない場合は行番号を返します。• 各フィールドのデータが列クラスと一致する場合、一致しない行番号と列番号または名前を返します。

固定幅の場合、以下をチェックします。 • 文字数が常に同じかどうか。そうでない場合は行番号を返します。• 各フィールドのデータが列クラスと一致しているかどうか。行番号とフィールドの最初の文字の番号、または列番号、または列名でない場合は列名を返します。

最後に、どちらの場合も、(ファイルの最後に到達したことを確認するために) 調べた行の数をメソッドに教えてもらいたいです。また、任意の行のコピーを行番号で抽出する方法が欲しいです。 、それらを見ることができるように(ファイル全体をメモリに読み込まずに)。

固定幅の場合と CSV の場合の両方で、列クラスのチェックは、一部のフィールドまたは文字が存在しないか、形式が正しくない場合に堅牢である必要があります。次の行で。

たぶん、これを行うパッケージまたは関数がありますか? 大きなファイルの問題を除けば、これはかなり標準的なデータ クリーニング タスクのように思えます。

どんな助けでも大歓迎です。

よろしくお願いします。

0 投票する
2 に答える
81 参照

php - PHP経由でテキストから単一の改行のみを削除する

Web ソースからデータを取得していますが、多くの場合、データの形式が適切ではありません。次のように返されるテキストをクリーンアップしたい:

単一の改行を取り除きたいが、二重の改行は保持したい。これはPHPでどのように行うことができますか? 理想的には、文字列は次のようになります。

試してみpreg_replace( "/\r|\n/", "", $string);ましたが、これにより、単一の改行だけでなく二重の改行も削除されます。

0 投票する
3 に答える
590 参照

r - 時系列データで測定値が欠落している被験者を削除する方法は?

次のようなデータがあります。

被験者は、開始年と終了年が異なる数年間にわたって測定されます。被験者はまた、異なる回数測定されます。測定開始年と測定終了年の間に毎年測定されていない被験者を削除したいと考えています。したがって、上記のデータでは、被験者 3 は 2009 年に測定できなかったので削除してほしいと思います。

Yearunique ごとに変数の最大値と最小値を取得する for ループを実行することを考えましたID。次に、各プレーヤーの最大値と最小値の差を取り、1 を追加します。次に、データ内に出現するそれぞれの一意の回数を数え、IDそれらが等しいかどうかを確認します。これは機能するはずですが、これを行うには、より迅速で効率的な方法が必要だと感じています。

0 投票する
1 に答える
1133 参照

excel - テキスト データを失うことなく、数式を使用せずに複数のセルを結合するにはどうすればよいですか?

毎日受信する電子メールからデータをインポートするとき、以下に示すような行のセットを含む列を調べてクリーンアップする必要があります。私が知りたいのは、列 B のデータを行 1 にマージして、空の行 2 と 3 を削除する方法です。連結などの式を見てきましたが、データを保持する必要があります。このデータを消去するとすぐに、別のシートに移動されます。

ご協力ありがとうございました。