問題タブ [data-cleaning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
6583 参照

vba - Excel のデータ列の一部の文字を検索して削除する

いくつかのデバッグ情報をコピーして Excel シートに貼り付けました。

ただし、1 つの列の一部のセルに「奇妙な」文字が含まれており、それ以外の場合は整数のみを含む必要があります。VBA を使用してそのような文字を削除する最も簡単な方法は何でしょうか? 以下のリストに例を示します。

このファイルを別のアプリケーションでデータ ソースとして使用したいと考えています。前もって感謝します。

0 投票する
2 に答える
280 参照

python - 本のタイトルの正規化-Python

私は本のタイトルのリストを持っています:

  • 「ホビットの冒険70周年記念版」
  • "ホビット"
  • 「ホビットの冒険(イラスト/コレクター版)[あちらこちら]」
  • 「ホビットの冒険:または、そこに戻って」
  • 「ホビット:ギフトパック」

等々...


どういうわけかタイトルを正規化すれば、各版がどの本を参照しているかを知るための自動化された方法を実装する方が簡単だと思いました。

また

ただし、タイトルには特殊文字を含めることができ、エディションは基本的に非常に異なるタイトルレイアウトを持つ可能性があるため、明らかに意図したとおりに機能していません。


助けていただければ幸いです!ありがとう :)

0 投票する
4 に答える
2588 参照

c# - 個人の人口統計情報のファジーデータマッチング

次のデータ要素を持つ人々でいっぱいのデータベースがあるとしましょう。

  • PersonID(意味のない代理自動番号)
  • ファーストネーム
  • ミドルネームのイニシャル
  • 苗字
  • NameSuffix
  • 生年月日
  • AlternativeID(SSN、Militarty IDなど)

私はあなたが考えることができるこれらの情報のあらゆる合理的なバリエーションであらゆる種類のフォーマットからたくさんのデータフィードを受け取ります。いくつかの例は次のとおりです。

  • フルネーム、DOB
  • フルネーム、最後の4つのSSN
  • 最初、最後、DOB

このデータが入ってくると、それに合わせて何かを書く必要があります。80%を超える一致率を取得する必要はありません。自動一致の後、誰かが手動で一致させるために、不確実な一致をWebページに表示します。

複雑さのいくつかは次のとおりです。

  1. 一部のデータ一致は他のデータよりも優れているので、それらに重みを付けたいと思います。たとえば、SSNが完全に一致しているが、誰かがミドルネームを使用しているために名前がオフになっている場合、名前が完全に一致しているがSSNがオフになっている場合よりも、その一致にはるかに高い信頼値を割り当てたいと思います。
  2. 名前の照合にはいくつかの問題があります。JohnDoeJrはJohnDoeIIと同じですが、John Doe Sr.とは異なります。JohnDoeと他の情報がない場合は、判断する方法がないため、システムが1つを選択しないようにする必要があります。誰を選ぶか。
  3. 名のマッチングは本当に難しいです。ボブ/ロバート、ジョン/ジョン/ジョナトン、トム/トーマスなどがいます。
  4. FullName + DOBのフィードがあるからといって、すべてのレコードのDOBフィールドが入力されているわけではありません。比類のないDOBが一致するスコアを殺すという理由だけでリンケージを見逃したくありません。フィールドが欠落している場合、マッチングに使用できる要素からそのフィールドを除外したいと思います。
  5. 誰かが手動で一致する場合、私は彼らの一致が将来のすべての一致に影響を与えることを望みます。したがって、同じ正確なデータを再度取得した場合、次回は自動的に一致させない理由はありません。

SSISにはあいまい一致があることを確認しましたが、現在SSISを使用していません。また、バージョン管理がかなり厄介でほぼ不可能であるため、ツールの最初の選択肢ではありません。しかし、それが最高の場合は、教えてください。それ以外の場合、このタイプの問題に使用した(できれば無料、できれば.NETまたはT-SQLベースの)ツール/ライブラリ/ユーティリティ/テクニックはありますか?

0 投票する
5 に答える
230 参照

matlab - 0 から -1 の間のデータを見る際の問題

Matlab を使用して、データを消去するプログラムを作成しようとしています。このプログラムは、データの最大値と最小値を取り、最小値より小さいデータまたは最大値より大きいデータを破棄します。クリーニング部分に小さな問題があるようです。このケースは、チェックされる変数の最小範囲が 0 の場合にのみ発生します。この場合、何らかの理由で、プログラムは 0 と -1 の間のデータ ポイントを破棄しません。しばらくの間、これを修正しようとしてきましたが、これが唯一のケースであることに気付きました。0 未満のデータを選択して SQL クエリを実行しようとすると、0 から - の間のデータが除外されます。 1、事実上、私に起こっていることと同じエラーです。誰かがこれを認識し、それが何であるかを知っているかどうか疑問に思っています.

0 投票する
1 に答える
123 参照

mysql - MatlabでMySQLのシャットダウンを処理するには?

ごきげんよう~

私は、MySQL からクエリを実行して、Matlab 上のあるデータベースから別のデータベースに大量のデータを解析して消去するプログラムを作成しています。これは、新しいデータが毎分最初のデータベースに入り、クリーンアップされ、次のデータポイントが入る前にクリーンなデータベースに置かれるため、継続的に実行されます. .

  1. バックアップのために 3 晩ごとに MySQL がシャットダウンされます。これが発生したときにプログラムを一時停止し、バックアップ時に再開したいと思います。私は解決策を探しましたが、これに対する解決策が見つからないようです。

  2. ユーザーがプログラムを強制終了できるようにします。私はこれを ctrl+c でのキルを説明するか、それを行うための GUI を作成するかのどちらかに絞り込みました。皆さんはどちらの戦略がより良いと思いますか?

この件について、お時間をいただきありがとうございます。

0 投票する
7 に答える
13330 参照

mysql - MySQL 日付フィールドから '0000-00-00' をブロックする

古いコードが実際の日付の代わりに Date および DateTime 列に '0000-00-00' を挿入するのが好きなデータベースがあります。そこで、次の 2 つの質問があります。

  1. これをブロックするためにデータベースレベルでできることはありますか? 列を非 null に設定できることはわかっていますが、それがこれらのゼロ値をブロックしているようには見えません。
  2. 日付フィールドの既存のゼロ値を検出する最良の方法は何ですか? それぞれ 2 ~ 3 の日付列を持つ約 100 のテーブルがあり、それらを個別にクエリしたくありません。

ファローアップ:

デフォルトはすでに null に設定されています。昔は、デフォルトは「0000-00-00」でした。'0000-00-00' を明示的に配置するコードもあります。そのコードを強制的にエラーをスローさせて、それを分離して削除できるようにしたいと思います。

0 投票する
4 に答える
5775 参照

coldfusion - Coldfusion 9 でのクレンジング文字列/入力

私は最近Coldfusion 9を使用しており(主に PHP のバックグラウンド)、ユーザーが送信した入力/文字列を「クリーン/サニタイズ」する方法を見つけようとして頭を悩ませています。

私はそれを HTMLSAFE にしたいと考えています。JavaScript や SQL クエリ インジェクションを排除したいと考えています。CF9 に既に付属しているある種の機能を見落としていることを願っています。

誰かが私を適切な方向に向けることができますか?

0 投票する
1 に答える
111 参照

regex - テキストから URL を抽出し、辞書を使用してフリー テキストのフェイス ブックを facebook.com に翻訳する

テキスト調査の回答から Web サイトを抽出する必要があります。アルゴリズムは大まかに一致する必要があります。たとえば、「patients like me」または「patientslikeme」は「patientslikeme.org」として認識されます。

以下のデータセットからの回答を含めました。これを行うためにいくつかのスクリプトを書き始めましたが、追加のフィルターと辞書を受け入れる堅牢な設計パターンを使用していないことに気付きました。一致が正確すぎるか、または一般的すぎるため、十分な数の一致を検出できないため、単純な正規表現は機能しませんでした。完璧な世界では、スペルミスを修正するためにaspellのようなものを使用したり、単語を一致させるためにレーベンシュタインアルゴリズムを使用したりすることもできます。

データクレンジングアルゴリズム、フレームワーク、またはリソースの方向性を教えてくれてありがとう.

「オンライン コミュニティ」の全体的な美しさは、その大部分が匿名であることです。ただし、アクセス可能なガーデニング フォーラム、Davesgarden.com。Patientslikeme.com; もちろんフェイスブックも。

ペイシェント ライク ミー ミズ ソサエティ フェイスブック ディスイズム

yaoo webmd.co

MS治療オプション.com

0 投票する
3 に答える
1103 参照

parsing - 汚れたデータからデータ構造を抽出するツール

データベース フィールドに、構造化されていない一般的に汚れたデータがあります。データに一貫性のある共通の構造があります

すなわち:

これらのデータ構造を抽出して学習/理解し、ファイルを解析し、検証チェックを実行できるマップまたはオブジェクトに変換できるツール (できれば Java) があるかどうか疑問に思っていました。

私は Antlr を認識していますが、これはツリー構造を対象としており、独立したデータ ビットではないことを理解しています (これは間違っていますか?)

全体として問題について何か提案はありますか?

0 投票する
1 に答える
117 参照

php - 誰かが良いPHPHTMLクレンザーをお勧めできますか?

かなり自明ですが、ユーザーからのhtmlをWebページに表示できるようにしたいと思います。

理想的には、<p><strong><em><a><ul><li>ID、クラス、、、インラインJavaScriptなどを禁止<script>する<style>ときなどの要素を許可する必要があります。HTMLの有効性を確保することは強力なプラスです。HTML(XHTMLとは対照的に、または少なくとも選択できる)もいいでしょう。

もちろん、MarkDownのようなものを使用することもできますが、可能であれば、ユーザーが新しいスキルを習得する必要のないシステムを使用したいと思います。

この質問が重複している場合は申し訳ありませんが、最初に確認しましたが何も見つかりませんでした。クイックグーグルは明らかにいくつかの結果をもたらしましたが、私は開発者に彼らが良い(つまり安全である)と言っているだけです。

フリー/オープンソースソリューションが望ましい。