問題タブ [data-scrubbing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
validation - 単体テスト データ?
当社のソフトウェアは、さまざまなソースからの多くのデータ フィードを管理します。リアルタイムで複製されたデータベース、自動的に FTP 送信されたファイル、リンク サーバーからのデータのスナップショットをキャッシュするためのデータベース ストアド プロシージャのスケジュールされた実行、およびその他の多数のデータ取得方法です。
このデータを確認して検証する必要があります。
- インポートが発生したことさえあります
- 妥当なデータ (null 値、行数など)
- データは他の値と一致しますか (おそらく、同様のデータのソースが複数あります)
- データが不足しており、インポートには手動でプロンプトを表示する必要があります
多くの点で、これは単体テストに似ています。作成するチェックには多くの種類があります。新しいチェックをリストに追加し、特定のイベントに応じて各クラスのテストを再実行するだけです。テストを実行するための優れた GUI が既にあり、おそらくそれらをスケジュールすることさえできます。
これは良いアプローチですか?同様に一般化された、より優れたデータ検証パターンはありますか?
私たちは .NET ショップです。Windows ワークフロー (WF) はより優れた、より柔軟なソリューションでしょうか?
sql - 開発またはテストのための顧客データの匿名化
実際の顧客情報 (名前、住所、電話番号など) を含む本番データを取得し、それを開発環境に移動する必要がありますが、実際の顧客情報の類似性を削除したいと考えています。
この質問への回答のいくつかは、新しいテスト データを生成するのに役立ちますが、本番データでこれらの列を置き換えるにはどうすればよいでしょうか。ただし、他の関連する列は保持します。
仮の名前が 10000 個あるテーブルがあるとします。SQL 更新でクロス結合を行う必要がありますか? または、次のようなことをします
php - PHP 文字列から文字を削除する
画面に表示するフィードから文字列を受け取ります。この文字列には、除外したいゴミが含まれている場合と含まれていない場合があります。通常のシンボルをまったくフィルタリングしたくありません。
削除したい値は次のようになります: �</p>
削除したいのはこれだけです。関連するテクノロジーは PHP です。
提案をいただければ幸いです。
javascript - Javascript で記事のタイトル/著者/日付情報を取得する
参照目的で、現在のページ/記事の作成者と日付の情報を取得するブックマークレットを作成しようとしています。document.title と document.URL でページのタイトルと URL を取得できることはわかっていますが、他の情報に関しては空白を描いています。何か案は?
mysql - Mysqlからメールアドレスをスクラブします
ユーザー情報でいっぱいのMySQLデータベースがあります。請負業者に分析を依頼したいのですが、すべてのユーザー情報を公開したくありません。今の私の最大の関心事はメールアドレスです。メールアドレスドメインを保持したいのですが、アドレスを匿名化します。理想的には、SQLスクリプトでそれを実行したいと思います。
したがって、「email」列のすべての項目を「myAddress@gmail.com」から「xxxx@gmail.com」に、「anotherAddress@hotmail.com」を「xxxx@hotmail.com」に変更したいと思います。 。何か案は?
mongodb - データウェアハウジングのステージングステップ?
通常、人々はデータ ウェアハウジングでステージング ステップをどのように実行しますか??
同様のタスクを実行する必要がありますが、NoSQL データベースを使用することがデータ統合の目的に適しているかどうか、データのクレンジングとスクラブを実行するのがどれほど簡単で効率的かはわかりません
誰かがこの分野で何らかの仕事をしたことがありますか?
私にお知らせください
一般的な質問で申し訳ありませんが、SOよりもそのような質問をするのに適した場所が思いつきませんでした
ありがとうございました
nlp - 構造化されていないソースから構造化データを生成する電子メール スクラビング用のオープン ソース プロジェクトはありますか?
これをどこから始めればいいのかわからないので、皆さんが私の質問を解決できることを願っています. メールで特定の単語/パターンを検索し、構造化された方法で保存するプロジェクトがあります。Trip it で行われる何か。
この記事では、DataMapper を開発したと述べています。
DataMapper は、plan [at] tripit.com 宛てのインバウンド電子メール メッセージを受け取り、メール リーダーに表示される半構造化形式から高度に構造化された XML ドキュメントに変換します。
とのコメントもあります
これを自分で構築しようとしている場合は、Wrappers と Wrapper Induction について少し読むと役立つかもしれません
私はグーグルでラッパー誘導について読みましたが、定義が広すぎて、そのような問題を解決する方法を理解するのに役立ちませんでした。
同様のことを行うオープンソース プロジェクトはありますか?
sql-server-2005 - テーブルのフィールドにnullコンテンツのパーセンテージを返すSQLServerクエリ
SQL Server 2005で開発されたレガシーシステムから移行プロジェクトのデータをスクラブしようとしていますが、最初の仕事は、実際に使用されていない列を特定することです。
私のアプローチの背後にある一般的なロジックは、ほとんど空白のままになっている列を識別することです(つまり、ほとんどまたはすべての行に、そのテーブルのその列のnull値が含まれています)。これはストアドプロシージャとして実行され、理想的な出力は次のようになります。
キャッチは次のとおりです。一部のテーブルには100を超える列があるため、実際のキーはプロシージャが特定のテーブルの列をループするためのものであるため、クエリを実行するために列名の長い文字列を入力する必要はありません。これを行う方法についての助けは素晴らしいでしょう、
ありがとう。
php - Facebook Graph API の広範なデータ スクレイピング。クライアント側かサーバー側か?
ユーザーのFacebookデータにアクセスし、返された情報を分析するPHP、HTML、およびJavaScriptを使用してアプリケーションを構築しています。ユーザーがプロファイルに持っているデータの量に応じて、Graph API に対して約 15 から 30 のリクエストを行う必要があります。
すべてのデータにアクセスできることと、スクレイピングの待ち時間が長すぎないことを確認することから始めました。Facebook ドキュメンテーションの認証ページにある簡単なサーバー側フロー (PHP) の例を使用して、最適化中の PHP スクリプトをまとめました。現在、ページをロードして、長い PHP スクリプトが実行されるのを待ちます。理想的ではありません。
フロント エンドの観点から、ユーザーが FB アプリを認証した後、ページが更新されないことが理想的であり、ページが継続的に読み込まれている間 (つまり、 PHP スクリプト)。
したがって、私の質問は、既に作成したものと同じ PHP スクリプトを使用し、(ユーザー認証後に) AJAX 要求を使用してスクリプトをオフにする必要があるか (そして AJAX を使用して完了をポーリングするか)、サーバー側のロジックを書き直す必要があるかどうかです。 Facebook JavaScript SDK と AJAX を使用してすべてのことを行いますか?
私の意見では、アプリケーションがクライアントに依存して大量の http リクエストを作成することについて何かがあると思います。=)
長いメッセージをお詫び申し上げます。できるだけ明確にしようとしています。
前もってありがとう、gfte
web-crawler - 別のURLのPHP呼び出しボタン(データスクレイピング)
少しグーグルで調べましたが、役に立つものは何も見つかりませんでした。
フォームに何かを入力し、ドロップダウンメニューから特定の項目を選択し、ボタンをクリックして、提供されたページからデータを抽出したいリモートページ、たとえば google.com があるとします。
この作業を自動化したい。
C# では、ブラウザー オブジェクトを作成し、それを使用して特定のページのボタンを呼び出したり、ドロップダウン メニューからデータを選択したり、フォームに入力したりできることを知っています。
PHPを使用して同様のタスクを実行できますか?
お時間をいただきありがとうございます。
アンドレイ