問題タブ [data-cleaning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1226 参照

sql - 不正なデータを持つすべての列を返す SQL Server 2005 クエリ

それぞれ約 50 列の SQL Server テーブルが 15 あります。

これらの列の一部には、引用符、コンマ、およびタブを含む行があります。

列名が指定された行からこれらすべてを削除する機能がありますが、どの列に問題があるかわかりません。

テーブル名に指定された不正なデータを含む列名を返すことができる SQL Server 2005 クエリが必要です。

0 投票する
4 に答える
11579 参照

django - django-sentryデータベースをクリア/維持する方法は?

django-sentryを使用してWebサイトのエラーを追跡しています。私の問題は、データベースが大きくなりすぎたことです。「メッセージ」テーブルと「グループ化されたメッセージ」は関連しています

古いエントリや特定のメッセージをクリアしたり、歩哨テーブルをdjangoの管理者に追加したりする方法はありますか?

0 投票する
2 に答える
693 参照

php - MySQL から PHP への二重引用符の問題

私は、複数の映画のあらすじを含むデータベースを持っています。これらは、私に電子メールで送信され、コピーしてデータベースに貼り付けたテキストのブロックです。私は今、単純な PHP スクリプトを使用してそれらを解析しようとしていますが、エラーが発生し続けています。テキストブロック内の二重引用符、アンパサンド、およびその他の特殊文字が原因であると思われます-どうすればこれをクリーンアップできますか?

これが私のコードです:

ほとんどの場合、SYNOPSIS 部分でクラッシュします。これは、最も多くのテキストが含まれているため、「問題のある」文字が最も多く発生するためです。

これをオンザフライでクリーンアップする方法はありますか?

0 投票する
2 に答える
3119 参照

r - Rのオブジェクト(リスト)の順序付けられたコレクションから非英数字を削除する

Rのリストから英数字以外の文字を削除することについて質問があります。リストにはあらゆる種類の奇数文字、空白などがあり、それらを削除したいと思います。私は通常、rのtmパッケージを使用して必要なものを削除することができます。私はそれをいじくり回しましたが、どこにも行き着かなかったので、リストに戻ることが出発点かもしれないと思いました。

リスト:

期待される出力

0 投票する
1 に答える
917 参照

postgresql - ETL ツールまたはアドホック ソリューション?

私はデータ ウェアハウス システムを設計しています。元のデータ ソースは、ファイル (16 進形式、既知のレコード構造) と PostgreSQL データベースの 2 つです。ETL フェーズでは、2 つのソース (ファイルと DB) のコンテンツを読み取り、それらを結合/統合/クリーニングする必要があります。この後、データを DW にロードします。

この目的には、ツール (Talend など) とアドホック ソリューション (プログラミング言語を使用してアドホック ルーチンを作成する) のどちらが適していますか?

0 投票する
3 に答える
149 参照

php - POSTをきれいにする組み込みの方法はありますか

POST ( $_POST)を介してシステムに入るすべての値をトリミングしたいとします
。または、より複雑なフィルターを適用することもできます。
それを行うための本質的な方法はありますか(Postは配列の配列にすることもできます...)
現在使用しているブートストラップファイルarray_walk_recursiveまたは同様のものを持っています。

0 投票する
2 に答える
3072 参照

sql - Oracleの電子メールの列の複数の文字を置き換える

したがって、基本的に私は複数の電子メールの列を持っており、それらのいくつかは無効であり、許可されていない異なる文字/キャリッジリターンが含まれています。

以下は、selectステートメントで無効なメールを見つける方法ですが、個別に置き換える方法がわかりません。たとえば、キャリッジリターンが見つかった場合は、replaceステートメントを使用します。特殊文字と同じです。しかし、それには、考えられるケースごとに個別のクエリを作成する必要がありますか?

基本的に、私が求めているのは、これらのケースステートメントの1つに一致する電子メールアドレス内の文字を置き換えるために、テーブルを反復処理するための最も効率的な方法です。

0 投票する
2 に答える
534 参照

php - settype()とfilter_var()

私のコードがより安全であることを確認するために次の行を使用する方が良い場合はどれですか。filter_var関数のsettype関数を使用する必要がありますか?

また

ありがとう

0 投票する
1 に答える
310 参照

c - 400kレコードのファイルを2つのファイルに分割する方法

入力データファイルをラベルに基づいて2つの出力ファイルに分割しようとしています。以下のコードを次に示します。以下のコードは、レコード数が少ない場合にのみ機能しますが、セグメンテーション違反が発生します。行。

0 投票する
1 に答える
938 参照

data-cleaning - Google Refine を使用して文字列値を指紋に置き換える方法は?

100,000 以上の文字列を含む列があります。これらの文字列を Google Refine に指紋で置き換えてもらいたいと考えています。

Google Refine で列を選択し、テキスト ファセットを作成しました。そのテキスト ファセットから、「クラスター」を選択できます。これにより、クラスターが表示されます。これは、同じフィンガープリントを持つ文字列値を意味すると想定し、クラスターの最初のメンバーの名前にデフォルト設定されている新しいセル値を選択できるようにします。

この名前が単なる指紋であることを願っています。その理由は、複数のファイルに対してこの操作を実行する必要があり、それらが実際に同じクラスターの一部である場合は、それらが同じ値である必要があるためです。Refine FAQ に従ってメモリパラメータを最適化しても、Refine が処理するにはデータが多すぎるため、ファイルを連結できません。

したがって、列の各セルを取得し、その指紋を計算し、列の値を指紋で置き換える操作を探しているだけです。

OSX 10.7 で Google Refine 2.5 を使用しています